Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

JARVIS: voice personal assistant in Python

JARVIS è un assistente basato su Python che consente di interagire con un'Intelligenza Artificiale tramite interfaccia vocale
JARVIS: voice personal assistant in Python
JARVIS è un assistente basato su Python che consente di interagire con un'Intelligenza Artificiale tramite interfaccia vocale
Link copiato negli appunti

JARVIS, gli appassionati del Marvel Cinematic Universe avranno già sentito questo nome, è un assistente vocale personale basato sul linguaggio Python. Disponibile attraverso un repository dedicato sul GitHub permette di interagire con un LLM (Large Language Model) attraverso il microfono del proprio computer, sfruttando un'interfaccia Web. L'interazione è totalmente vocale (Voice to Text to LLM to Speech) per cui si può parlare con il modello che risponde sia con la "propria" voce che via testo.

Come funziona JARVIS

Gli input vocali inviati alla piattaforma vengono convertiti in testo tramite Deepgram. Un'API speech-to-text per la realizzazione di applicazioni basate sull'Intelligenza Artificiale e, nello specifico, su modelli di audio intelligence per gli sviluppatori. In questa fase vengono messe a disposizione le funzionalità per il riconoscimento vocale, quindi identificazione, analisi e sommarizzazione dei prompt in formato audio.

I test così generati vengono inviati alla API di OpenAI per la produzione di una risposta. Quest'ultima viene poi convertita in parlato tramite ElevenLabs con cui JARVIS restituisce un output in voce naturale e in tempo reale. È supportata anche la lingua Italiana.

Il parlato viene riprodotto attraverso Pygame che è un set portabile di moduli Python con supporto per le CPU multi-core creato in origine per lo sviluppo di videogame. L'ultima fase riguarda la restituzione degli output anche in formato testo nell'interfaccia Web, operazione che viene effettuata tramite Taipy. Parliamo nello specifico di una libreria Python per la creazione e la pubblicazione di applicazioni Web basate su algoritmi di AI.

Installazione e uso di JARVIS

JARVIS funziona grazie all'utilizzo di interfacce di programmazione esterne, nello specifico quelle di Deepgram, OpenAI e ElevenLabs. Quindi prima di utilizzarlo è necessario disporre delle API key di tutti questi servizi. Per installarlo si deve clonare innanzitutto il repository:

git clone https://github.com/AlexandreSajus/JARVIS.git

Fatto questo si devono installare tutte le dipendenze richieste:

pip install -r requirements.txt

per poi concludere il processo con la configurazione del file .env tramite l'indicazione delle API key necessarie:

DEEPGRAM_API_KEY=XXX...XXX
OPENAI_API_KEY=sk-XXX...XXX
ELEVENLABS_API_KEY=XXX...XXX

Per accedere al servizio si deve invece eseguire il file display.py che avvia l'interfaccia Web di JARVIS:

python display.py

per poi eseguire il file jarvis.py che lancia l'assistente vocale tramite l'istruzione:

python main.py

Ti consigliamo anche