Mistral lancia API di moderazione dei contenuti

Link copiato negli appunti

La startup di intelligenza artificiale Mistral ha lanciato una nuova API per la moderazione dei contenuti. L'API, che è la stessa che alimenta la moderazione nella piattaforma chatbot Le Chat, può essere adattata ad applicazioni specifiche e standard di sicurezza. Tale API è alimentata da un modello ottimizzato (Ministral 8B) addestrato per classificare il testo in varie lingue, tra cui inglese, italiano, francese e tedesco. La moderazione comprende in tutto nove categorie: sesso, odio e discriminazione, violenza e minacce, contenuti pericolosi e criminali, autolesionismo, salute, finanza, legge e informazioni di identificazione personale.

Mistral: modello di moderazione altamente accurato

L'API di moderazione può essere applicata sia al testo grezzo che a quello conversazionale. Come dichiarato dall’azienda in un post del blog: "Negli ultimi mesi, abbiamo assistito a un crescente entusiasmo nel settore e nella comunità di ricerca per i nuovi sistemi di moderazione basati sull'intelligenza artificiale. Ciò può contribuire a rendere la moderazione più scalabile e solida in tutte le applicazioni. Il nostro classificatore di moderazione dei contenuti sfrutta le categorie di policy più pertinenti per efficaci guardrail e introduce un approccio pragmatico alla sicurezza del modello affrontando i danni generati dal modello, come consigli non qualificati e PII".

In teoria, i sistemi di moderazione basati sull'intelligenza artificiale dovrebbero essere utili. Ma sono anche suscettibili alle stesse allucinazioni e difetti tecnici che affliggono altri sistemi di intelligenza artificiale. Ad esempio, alcuni modelli addestrati per rilevare la tossicità vedono frasi in slang inglese come sproporzionatamente "tossiche". Come confermato da alcuni studi, anche i post social sulle persone con disabilità sono spesso segnalati come negativi o tossici dai modelli di rilevamento.

Mistral sostiene che il suo modello di moderazione è altamente accurato. Tuttavia, ammette che si tratta ancora di un work in progress. In particolare, l'azienda non ha confrontato le prestazioni della sua API con altre API di moderazione popolari, come l'API Perspective di Jigsaw e l'API di moderazione di OpenAI. Come ha dichiarato ancora l’azienda: "stiamo lavorando con i nostri clienti per creare e condividere strumenti di moderazione scalabili, leggeri e personalizzabili. Continueremo a collaborare con la comunità di ricerca per contribuire ai progressi della sicurezza nel campo più ampio".

Mistral lancia API di moderazione dei contenuti

Mistral: modello di moderazione altamente accurato

Ti consigliamo anche

OpenAI: ecco o3, nuovo modello AI per un ragionamento avanzato

Instagram introdurrà una funzionalità di editing video AI nel 2025

Google Chrome testa flag di rilevamento delle truffe basato sull’AI

Apple Intelligence: RSF reagisce a fake news su Luigi Mangione