Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

I modelli TTT potrebbero essere il futuro dell’AI generativa

L’architettura di rete neurale “trasformatore” potrebbe presto essere sostituita dai nuovi modelli TTT, più efficienti e meno energivori.
I modelli TTT potrebbero essere il futuro dell’AI generativa
L’architettura di rete neurale “trasformatore” potrebbe presto essere sostituita dai nuovi modelli TTT, più efficienti e meno energivori.
Link copiato negli appunti

Dopo anni di dominio da parte della forma di AI nota come trasformatori, si è aperta la caccia a nuove architetture. I trasformatori sono alla base del modello di generazione di video Sora di OpenAI e di modelli di generazione di testo come Claude di Anthropic, Gemini di Google e GPT-4o. Tuttavia, adesso stanno cominciando a scontrarsi con ostacoli tecnici, sopratutto legati al calcolo. I trasformatori non sono particolarmente efficienti nell'elaborazione e nell'analisi di grandi quantità di dati. Ciò sta portando a aumenti vertiginosi della domanda di energia. Infatti, le aziende costruiscono ed espandono le infrastrutture per soddisfare le esigenze dei trasformatori. Un’architettura promettente proposta recentemente è il test-time training (TTT), sviluppato dai ricercatori di Stanford, UC San Diego, UC Berkeley e Meta. Il gruppo di ricerca sostiene che i modelli TTT non solo possono elaborare molti più dati rispetto ai trasformatori, possono farlo consumando minore potenza di calcolo.

Modelli TTT: un modello all’interno di un modello

Una componente fondamentale dei trasformatori è lo “stato nascosto”, che è essenzialmente un lungo elenco di dati. Quando un trasformatore elabora qualcosa, aggiunge voci allo stato nascosto per “ricordare” ciò che ha appena elaborato. Ad esempio, se il modello si sviluppa all'interno di un libro, i valori dello stato nascosto saranno cose come rappresentazioni di parole (o parti di parole). Lo stato nascosto è parte di ciò che rende i trasformatori così potenti. Ma li ostacola anche. Per “dire” anche una sola parola su un libro appena letto da un trasformatore, il modello dovrebbe scansionare l’intera tabella di ricerca. Yu Sun, post-doc a Stanford e co-contributore della ricerca TTT, e il suo team hanno avuto l'idea di sostituire lo stato nascosto con un modello di apprendimento automatico, come fosse un modello all'interno di un modello.

Il modello di machine learning interno del modello TTT codifica i dati che elabora in variabili rappresentative chiamate pesi. Ciò che rende i modelli TTT altamente performanti. Non importa la quantità di dati elaborati da un modello TTT, la dimensione del suo modello interno non cambierà. Sun ritiene che i futuri modelli TTT potrebbero elaborare miliardi di dati in modo efficiente. Questo è ben oltre le capacità dei modelli odierni. Non è ancora chiaro se i modelli TTT potranno un giorno sostituire i trasformatori. È troppo presto per dirlo con certezza. Ad oggi i ricercatori hanno sviluppato solo due piccoli modelli per lo studio. Ciò rende il metodo TTT difficile da confrontare con alcune delle implementazioni di grandi trasformatori disponibili. Queste ricerche sulle alternative ai trasformatori mostrano tuttavia come una svolta sia necessaria, soprattutto per evitare che la domanda di energia diventi insostenibile.

Ti consigliamo anche