A scopo dimostrativo, un team di ricercatori britannico ha realizzato un nuovo e inquietante modello di deep learning.
Questo sarebbe in grado di rubare informazioni sensibili, come login, password e messaggi privati, semplicemente decifrando il suono della tastiera. L'algoritmo realizzato dagli studiosi lavora tramite la registrazione di un microfono e, secondo i dati finora ottenuti, ha una precisione pari al 95%.
Anche se, nel contesto di app per videoconferenze e simili, l'efficacia di questo modello sembra scendere, il tutto risulta molto preoccupante. Soluzione di deep learning simili, di fatti, potranno essere utilizzati presto con nuovi tipi di malware. Gli stessi, potranno semplicemente "ascoltare" cosa gli utenti digitano sulla tastiera, per rubare informazioni sensibili.
I recenti progressi nell'apprendimento automatico combinati con microfoni sempre più raffinati, potranno rendere questa minaccia ben presto concreta e, soprattutto, difficile da contrastare.
Un sistema deep learning raffinato per decifrare i suoni di ogni singolo tasto
Come è stato possibile creare un sistema così raffinato nel contesto del deep learning? I ricercatori hanno addestrato l'algoritmo premendo 36 tasti su un MacBook Pro, ognuno dei quali è stato attivato ben 25 volte per registrare ogni possibile sfumatura di suono. L'audio così ottenuto è stato acquisito utilizzando un iPhone 13 mini a 17 centimetri di distanza dal laptop.
Dalle registrazioni sono state estrapolate delle forme d'onda e spettrogrammi per distinguere ogni tasto. Il suono distinto di ciascun pulsante è stato quindi utilizzato per addestrare un classificatore di immagini chiamato CoAtNet, che ha predetto quale tasto è stato premuto sulla tastiera.
Va detto che, per poter analizzare i suoni è necessario avere pieno accesso al microfono del dispositivo. In questo senso, al di là di alcuni malware che potranno essere realizzati nei prossimi mesi/anni, per un cybercriminale allo stato attuale è difficile agire in questo senso.
Una soluzione, per esempio, potrebbe essere quella di portare la vittima all'interno di una chiamata Zoom per poter avere un contatto audio con lo stesso.