Nelle scorse ore Docker ha annunciato il lancio di Model Runner, una nuova funzionalità pensata per semplificare l'esecuzione e il test dei modelli di intelligenza artificiale generativa (GenAI) in un ambiente di sviluppo locale. L'obiettivo del progetto è quello di risolvere le attuali difficoltà degli sviluppatori, spesso alle prese con strumenti caratterizzati da frammentazione, configurazioni complesse e workflow difficilmente integrabili.
Come funziona Docker Model Runner
Come spiegato dai portavoce della compagnia nella presentazione di questa novità, Model Runner integra un motore di inferenza direttamente in Docker Desktop. Esso è basato su llama.cpp ed è compatibile con le API OpenAI. Questo consente di eseguire modelli di intelligenza artificiale con la stessa semplicità di un qualsiasi servizio containerizzato. Viene inoltre eliminata la necessità di ricorrere a strumenti esterni così come sia ha una semplificazione del ciclo di sviluppo locale.
Uno degli aspetti più interessanti di questa funzionalita è il supporto per GPU su Apple silicon. Ciò migliora notevolmente le performance in fase di inferenza, riduce i tempi di risposta e favorisce delle iterazioni più rapide. Docker sfrutta inoltre un suo standard per l'impacchettamento dei modelli, gli OCI Artifacts. Questo permette di distribuire e di effettuare il versioning dei modelli AI attraverso i registri container preesistenti, come Docker Hub, per una maggiore integrazione nelle pipeline CI/CD.
Modelli pronti all'uso per gli sviluppatori
Docker ha stretto delle collaborazioni incentrare sulla AI con realtà come Google, HuggingFace, Qualcomm, Spring AI e VMware Tanzu (piattaforma per la gestione di microservizi e container) per offrire dei modelli ottimizzati così come strumenti pronti all'uso per l'accelerazione delle procedure di startup.
Ad oggi Model Runner è disponibile in fase di betatest su Docker Desktop 4.40 per Mac con Apple silicon. Con i prossimi aggiornamenti si prevede di estendere il supporto per altre piattaforme inclusi i sistemi Windows con accelerazione GPU, la possibilità di pubblicare modelli personalizzati e integrazioni con Docker Compose e Testcontainers.