Anthropic ha recentemente annunciato il modello Claude 3.5 Sonnet aggiornato, ma anche il nuovo Claude 3.5 Haiku. Il primo modello offre miglioramenti su tutta la linea, con guadagni significativi nella codifica. Claude 3.5 Haiku è invece la risposta di Anthropic a GPT-4o Mini di OpenAI e Gemini 1.5 Flash di Google. Tale modello sarà disponibile allo stesso prezzo del suo predecessore ma con miglioramenti significativi delle prestazioni. I miglioramenti di Claude 3.5 Sonnet sono diversi. Il punteggio verificato di SWE-bench è aumentato dal 33,4% al 49,0%. Si tratta del punteggio migliore di sempre per qualsiasi modello nel settore. Il punteggio di TAU-bench è aumentato dal 62,6% al 69,2% nel dominio della vendita al dettaglio e dal 36,0% al 46,0% nel dominio delle compagnie aeree. I punteggi GPQA e MMLU Pro sono aumentati rispettivamente al 65% e al 78%, il che è migliore di Gemini 1.5 Pro.
Anthropic: Claude 3.5 Haiku migliore di GPT-4 Turbo
Il nuovo modello Claude 3.5 Haiku nei benchmark è risultato migliore di Claude 3 Opus, il modello più grande della precedente generazione di Anthropic. Claude 3.5 Haiku ha ottenuto il 40,6% su SWE-bench Verified, superando l'originale Claude 3.5 Sonnet e GPT-4 Turbo di OpenAI. Claude 3.5 Haiku sarà inizialmente disponibile solo come modello solo testo. Il supporto per le immagini arriverà in seguito. Anthropic ha inoltre evidenziato che i test congiunti di pre-implementazione del nuovo modello Claude 3.5 Sonnet sono stati condotti dall'US AI Safety Institute (US AISI) e dall'UK Safety Institute (UK AISI) come parte dell'accordo firmato all'inizio di quest'anno. Secondo la loro Responsible Scaling Policy, il modello Claude 3.5 Sonnet aggiornato rientra nello standard ASL-2.
L'aggiornamento di Claude 3.5 Sonnet è già disponibile allo stesso prezzo per gli sviluppatori tramite Anthropic API, Amazon Bedrock e Vertex AI di Google Cloud. Il nuovo modello Claude 3.5 Haiku sarà disponibile entro la fine del mese. Le prestazioni migliorate e l'accessibilità economica di questi nuovi modelli Claude 3.5 li rendono opzioni interessanti per sviluppatori e aziende che cercano modelli linguistici avanzati per le loro applicazioni AI.