OpenVINO 2024.2: Intel rilascia toolkit con ottimizzazioni Llama 3

Link copiato negli appunti

Intel ha rilasciato OpenVINO 2024.2, la versione più recente del suo toolkit AI open source per l'ottimizzazione e l'implementazione di modelli di inferenza di deep learning (A) in una gamma di framework AI e ampi tipi di hardware. Come riportato sul sito ufficiale dello toolkit, OpenVINO 2024.2 offre una maggiore copertura Gen AI e integrazioni del framework per ridurre al minimo le modifiche al codice. Inoltre, ottimizza Llama 3 di Meta per CPU, GPU integrate e GPU discrete per prestazioni migliorate e utilizzo efficiente della memoria. Supporta anche Phi-3-mini, una famiglia di modelli IA che sfrutta la potenza dei piccoli modelli linguistici per un'elaborazione del testo più rapida, accurata ed economica.

Le operazioni personalizzate Python sono state abilitate in OpenVINO e rendendo più semplice per gli sviluppatori Python codificare le proprie operazioni personalizzate invece di utilizzare operazioni personalizzate C++ (anch'esse supportate). Python Custom Operation consente agli utenti di implementare le proprie operazioni specializzate in qualsiasi modello. Vi è poi un’espansione dei notebook per garantire una migliore copertura per i nuovi modelli. Questi includono: DynamiCrafter, YOLOv10, notebook Chatbot con Phi-3 e QWEN2.

OpenVINO 2024.2: tutte le novità della nuova versione

OpenVINO 2024.2 aggiunge il supporto più ampio del Large Language Model (LLM) e più tecniche di compressione dei modelli. Vi sono stati poi miglioramenti significativi delle prestazioni LLM e latenza ridotta sia per le GPU integrate che per quelle discrete. Lo strumento ha migliorato significativamente la latenza del secondo token e dell'ingombro della memoria dei LLM di peso FP16 su piattaforme CPU basate su AVX2 e AVX512, in particolare per batch di piccole dimensioni. Inoltre, è stata introdotta la portabilità e maggiori prestazioni per eseguire l'intelligenza artificiale nel cloud o localmente.

OpenVINO Model Server (OVMS) ora supporta l'API compatibile con OpenAI insieme a Continuous Batching e PagedAttention. Ciò consente un throughput significativamente più elevato per l'inferenza parallela, in particolare sui processori Intel Xeon, quando si servono LLM a molti utenti simultanei.

Il backend OpenVINO per Triton Server ora supporta GPU integrate e GPU discrete, oltre al supporto delle forme dinamiche. Con l’integrazione di TorchServe tramite il backend torch.compile vi è una migliore implementazione del modello e non solo. Inoltre, è stata aggiunta l'API Generate. Si tratta un'API semplificata per la generazione di testo utilizzando modelli linguistici di grandi dimensioni con solo poche righe di codice. L'API è disponibile tramite il pacchetto OpenVINO GenAI appena lanciato. Infine, OpenVINO 2024.2 introduce il supporto per processori Intel Atom serie X. Per ulteriori dettagli, vedere il sito ufficiale di OpenVINO.

OpenVINO 2024.2: Intel rilascia toolkit con ottimizzazioni Llama 3

OpenVINO 2024.2: tutte le novità della nuova versione

Ti consigliamo anche

OpenAI: ecco o3, nuovo modello AI per un ragionamento avanzato

Instagram introdurrà una funzionalità di editing video AI nel 2025

Google Chrome testa flag di rilevamento delle truffe basato sull’AI

Apple Intelligence: RSF reagisce a fake news su Luigi Mangione