Stability AI, la startup creatrice Stable Diffusion, art generator basato sull'intelligenza artificiale, ha rilasciato un modello di intelligenza artificiale open source per la generazione di suoni. L’azienda sostiene che il modello sia stato addestrato esclusivamente su registrazioni esenti da royalty. Chiamato Stable Audio Open, il modello generativo prende una descrizione testuale (ad esempio "Rock beat suonato in studio, sessione di batteria su un kit acustico") e genera una registrazione della durata massima di 47 secondi. Il modello è stato addestrato utilizzando circa 486.000 campioni provenienti dalle librerie musicali gratuite FreeSound e Free Music Archive.
Stable Audio Open: i limiti del sound generator AI
Stability AI afferma che il modello può essere utilizzato per creare ritmi di batteria, riff di strumenti, rumori ambientali ed "elementi di produzione" per video, film e programmi TV. Inoltre, è possibile "modificare" brani esistenti o applicare lo stile di un brano (ad es. jazz) ad un altro. Come riportato sul blog aziendale: "un vantaggio chiave di questa versione open source è che gli utenti possono mettere a punto il modello sui propri dati audio personalizzati. Ad esempio, un batterista potrebbe mettere a punto campioni delle proprie registrazioni di batteria per generare nuovi ritmi". Tuttavia, Stable Audio Open ha i suoi limiti. Non può produrre canzoni, melodie o voci complete (almeno ben fatte). Stability AI afferma che il modello non è ottimizzato per ciò. Agli utenti che cercano tali funzionalità suggerisce di optare per il servizio premium Stable Audio.
Stable Audio Open non può essere utilizzato per uso commerciale. Inoltre, non funziona altrettanto bene con stili e culture musicali diverse o con descrizioni in lingue diverse dall’inglese. Come riportato ancora dall’azienda: "La fonte dei dati è potenzialmente priva di diversità e tutte le culture non sono ugualmente rappresentate nel set di dati. I campioni generati dal modello rifletteranno le distorsioni dei dati di addestramento". Stability AI, che ha lottato a lungo per risanare la propria attività in declino, è recentemente diventata oggetto di controversia. Ciò dopo che il suo vicepresidente del generative audio, Ed Newton-Rex, si è dimesso a causa del disaccordo con la posizione dell'azienda secondo cui l'addestramento di modelli AI su opere protette da copyright costituisce un “giusto utilizzo". Stable Audio Open sembrerebbe essere un tentativo di ribaltare quella narrazione, pubblicizzando allo stesso tempo i prodotti a pagamento dell’azienda.