macOSpilot è una piattaforma Open Source creata per rispondere alle domande dell'utilizzatore su qualsiasi argomento e, soprattutto, in qualsiasi applicazione. Per accedere ad esso è sufficiente usare una scorciatoia da tastiera, senza aprire alcuna nuova finestra, e attivare l'assistente. Si può così porre la propria domanda, in pratica un prompt, e ricevere la risposta nel contesto dell'App e via audio. Il tutto n pochi secondi.
Quando viene attivato macOSpilot esso fotografa uno screenshot della finestra attiva. Lo invia poi ad OpenAI GPT Vision insieme a una trascrizione della domanda. L'output verrà visualizzato in formato testo e convertito in audio tramite il supporto al text-to-speech di OpenAI.
Le funzionalità di macOSPilot
Come anticipato, macOSPilot è in grado di operare su qualunque applicazione presente in macOS. Risulta quindi agnostica rispetto all'App con cui è utilizzata. Le risposte fornite dall'assistente vengono mostrate attraverso una piccola finestra in overlay nella sezione superiore della finestra attiva, il contenuto viene inoltre restituito sotto forma di traccia audio.
La piattaforma di basa sul runtime JavaScript Node.JS e su Electron. Non si deve fare altro che installare Node.JS e le dipendenze richieste per poi passare alla configurazione del file index.jx
che ne controlla in funzionamento. Fatto questo si può scegliere di eseguire yarn da terminale o utilizzare Electron per la pacchettizzazione come indicano nelle istruzioni presenti sul repository.
Chiaramente, trattandosi di una soluzione che opera in background tramite le interfacce di programmazione di OpenAI, per lavorare con macOSPilot è richiesta la disponibilità di un'API key.
macOSpilot e API OpenAI
macOSpilot invia le richieste vocali formulate tramite microfono alla Whisper API di OpenAI. Mentre per quanto riguarda le trascrizioni, esse vengono elaborate attraverso la Vision API del gruppo capitanato da Sam Altman insieme allo screenshot catturato. Le risposte presentate all'interno della finestra in overlay sono appunto quelle generate tramite la Vision API.
Il sistema è in grado di raccogliere e archiviare localmente gli screenshot, le registrazioni audio e le risposte text-to-speech più recenti, rendendo il tutto disponibile per attività di debugging. I salvataggi avvengono in un file che ha sempre lo stesso nome e che viene costantemente sovrascritto. Esso non sarà però cancellato automaticamente quando si chiude o si rimuove un'applicazione.
La scorciatoia da tastiera predefinita per l'avvio dell'assistente è "Command+Shift+'" ma può essere personalizzata.