Common Voice: Dataset per il riconoscimento vocale

Link copiato negli appunti

In questi giorni Mozilla ha lanciato la nuova versione di Common Voice, un enorme dataset vocale e di trascrizioni linguistiche. Tale database è stato generato tramite un processo di crowdsourcing e comprende più di 1.400 ore di registrazioni vocali, effettuate da oltre 42.000 persone in 18 lingue diverse.

La fondazione ha realizzato tale progetto con l'obbiettivo di produrre un dataset vocale diversificato open source ottimizzato per la realizzazione di tecnologie vocali. Tale dataset è infatti a disposizione di startup, ricercatori e chiunque sia interessato alle tecnologie di riconoscimento vocale.

Le tecnologie di sintesi vocale sono molto complesse da realizzare, sopratutto senza un database molto ampio. Mozilla ha dunque donato uno strumento fondamentale alla community, permettendo ai team indipendenti di proseguire in modo più semplice nell'implementazione delle proprie soluzioni.

Common Voice è ovviamente un progetto in costate crescita ed evoluzione e attualmente è l'unico database vocale di tali dimensioni ad avere un modello di licenza open source.

Inoltre Common Voice è unico anche per quanto riguarda la diversità e la varietà di contributi e dati. Ogni persona che ha scelto di contribuire ha potuto scegliere se fornire metadati come età, sesso e accento. Tali dati possono essere associati alle registrazioni immesse, migliorando il processo di addestramento dei motori di riconoscimento vocale.

I contributori di tale progetto sono in gran parte volontari appassionati ma vi è anche una buona presenza di personale qualificato che lavora nel settore linguistico o tecnologico.

Il sito Web del Common Voice rappresenta uno dei principali strumenti per costruire i dataset vocali. È stato realizzato ascoltando i feedback della community, cosi da rendere il processo di traduzione e collaborazione più semplice, divertente e coinvolgente.

Common Voice fa parte di un progetto più ampio di realizzazione di motori open source di riconoscimento vocale (STT), di sintesi vocale (TTS) e ovviamente di modelli di addestramento dedicati alle applicazioni di Machine Learning.

Mozilla infatti sta sviluppando in parallelo il progetto DeepSpeech, uno Speech-To-Text engine basato su vari modelli di apprendimento automatizzato e sulla libreria TensorFlow.

Secondo Mozilla, DeepSpeech è tecnicamente in grado di convertire la voce in testo con l’accuratezza di una persona e in “tempo reale”. Tale progetto quindi sarebbe capace di trascrivere conferenze, conversazioni telefoniche, programmi televisivi, programmi radiofonici e altri flussi vocali durante la loro riproduzione.

L'engine viene già sfruttato in diversi progetti, anche esterni a Mozilla, come ad esempio in Mycroft, un assistente vocale open source, in Leon, un assistente personale open source ed in FusionPBX, un sistema di gestione dei telefoni.

Via Mozilla

Common Voice: Dataset per il riconoscimento vocale

Ti consigliamo anche

JetBrains: WebStorm e Rider gratuiti per uso non commerciale

Clay: libreria C per lo sviluppo di interfacce utente

Android XR SDK per App di realtà mista

dxday 2025: il programma completo è online