Un team di ricercatori del Dipartimento di Informatica dell’università di Oxford hanno realizzato un’intelligenza artificiale, un sofware chiamato LipNet, supportato in parte da Deep Mind di Alphabet, in grado di leggere il labiale con un’alta precisione.
Gli scienziati hanno allenato, usando migliaia di ore di filmati della BBC, una rete neurale capace di offrire un risultato con una precisione del 46,8% di precisione. Anche se non si parla del 100% di precisione in realtà è un altissimo risultato se si pensa che un lettore professionista, sulla base dei medesimi filmatiè stato in grado di capire le parole esatte solo il 12,4% delle volte.
La lettura delle labbra è una pratica complessa, ma necessaria per abbattere le barriere della comunicazione. Normalmente i professionisti della lettura labiale riescono ad essere accurati con una precisione che può oscillare dal 20 al 60 per cento poiché nella velocità di un normale discorso le lievi variazioni delle labbra, così come la distanza o una parziale copertura del soggetto rendono difficoltoso capire cos’è stato detto.
Nel campo dell’Intelligenza Artificiale IA)esisteva già da tempo un software con precisione di riconoscimento del labiale del 79,6 per cento, basato su un riconoscimento per singola parola. L’innovazione di di LipNet, come specificato nel documento di descrizione consiste, nel diverso approccio usato per riconoscere il testo pronunciato. Piuttosto che proseguire nell’utilizzare il sistema di riconoscimento per singola parola, insegnando all’IA ogni movimento della bocca tramite fonemi visivi, si è progettato il software in modo da elaborare intere frasi, permettendo così all’IA di imparare quale lettera corrispondesse ad ogni singolo leggero movimento della bocca.
Il progetto costituisce un vero successo, non mancano tuttavia alcuni dei limiti della moderna ricerca sull’intelligenza artificiale poiché il team di Oxford ha utilizzato un set di video accuratamente scelto per insegnare all’IA come leggere le labbra. Ogni persona è stata rivolta in avanti, ben illuminata, e ha parlato con una struttura della frase standardizzata.
Dunque l’elevata precisione dell’IA potrebbe quindi derivare dal fatto che è stata addestrata e testata in condizioni straordinarie, mentre se venisse richiesto di leggere le labbra da un video preso a caso da YouTube probabilmente i risultati sarebbero molto meno precisi.
Secondo Jack Clark di OpenAI per riuscire a far sì che questo sistema possa operare nel mondo reale si dovranno ottenere tre importanti miglioramenti: “riuscire a operare con video in cui sono presenti grandi quantità di persone che parlano in contesti reali, ottenere che l’AI sia in grado di leggere le labbra da più angolazioni, variare i tipi di frasi che l’intelligenza artificiale è in grado di prevedere”.
Dunque che ben venga il progresso scientifico, sistemi di questo tipo infatti potrebbero consentire una facilitazione nell’interazione vocale con dispositivi utilizzabili da parte di chi è affetto da totale o parziale mutismo migliorando la qualità della vita, in un modo che vent’anni fa sarebbe stata considerata pura fantascienza.