DeepSeek AI, laboratorio di ricerca cinese sull'intelligenza artificiale, sta facendo scalpore nella comunità dell'AI open source. Di recente, DeepSeek ha annunciato DeepSeek-V3, un modello linguistico di grandi dimensioni Mixture-of-Experts (MoE) con 671 miliardi di parametri totali, con 37 miliardi attivati per ogni token. Secondo i risultati dei benchmark AI più diffusi, DeepSeek-V3 è il modello open source più potente in circolazione e funziona persino meglio dei modelli closed source più diffusi, tra cui GPT-4o di OpenAI e Claude 3.5 di Anthropic. Questo LLM avrebbe infatti ottenuto risultati all'avanguardia in nove benchmark, il massimo per qualsiasi modello comparabile delle sue dimensioni.
Nonostante le sue eccellenti prestazioni nei benchmark chiave, DeepSeek-V3 richiede solo 2,788 milioni di ore GPU H800 per la sua formazione completa e circa 5,6 milioni di dollari in costi di formazione. Per fare un confronto, il modello open source equivalente Llama 3 405B richiede 30,8 milioni di ore GPU per la formazione. Tale modello è conveniente grazie al supporto della formazione FP8 e alle ottimizzazioni ingegneristiche approfondite.
DeepSeek-V3: modello cinese molto più economico di GPT e simili
DeepSeek-V3 è anche altamente efficiente nell'inferenza. Dall'8 febbraio prossimo, l'input di questo modello costerà 0,27 dollari per milione di token (0,07 dollari/milione di token con caching) e l'output costerà 1,10 dollari per milione di token. Questo prezzo è quasi un decimo di quello che OpenAI e altre aziende leader di intelligenza artificiale attualmente chiedono per i loro modelli di punta di frontiera.
Il team DeepSeek ha condiviso un post sul proprio account X per annunciare l’arrivo del nuovo modello. Come riportato dall’azienda: “la missione di DeepSeek è incrollabile. Siamo entusiasti di condividere i nostri progressi con la comunità e di vedere il divario tra modelli aperti e chiusi ridursi. Questo è solo l'inizio! Non vediamo l'ora di ricevere supporto multimodale e altre funzionalità all'avanguardia nell'ecosistema DeepSeek”. Gli utenti possono già scaricare il modello DeepSeek-V3 da GitHub e HuggingFace. Con le sue prestazioni impressionanti e la sua convenienza, DeepSeek-V3 potrebbe democratizzare l'accesso ai modelli AI avanzati. Questa release segna un passo significativo verso la chiusura del divario tra modelli AI open e closed.