Les GAFAM (Google – Apple – Facebook – Amazon – Microsoft) investissent lourdement dans la technologie d’avant-garde que constitue l’Intelligence Artificielle. Ils développent des algorithmes sophistiqués progressivement introduits dans tous les secteurs d’activité. Ainsi, grâce à cette innovation, ils renforcent leur suprématie déjà bien établie et révolutionnent nos usages au quotidien.
En 2014, Google, très intéressée par l’Intelligence Artificielle, a racheté la société britannique DeepMind pour plus de 628 millions de dollars. En effet, DeepMind a réussi à combiner des techniques très pointues d’apprentissage automatique et des neurosciences de systèmes. Cela lui a permis d’élaborer des algorithmes très puissants. La première et étonnante application, réalisée en collaboration avec l’Université d’Oxford, concerne la lecture automatique sur les lèvres.
Une Intelligence Artificielle aux premiers résultats époustouflants
La formation de l’Intelligence Artificielle
Ainsi, le système d’Intelligence Artificielle a suivi pendant 5 000 heures une formation en étudiant six programmes de télévision différents de mars à septembre 2016. Au total, cela représentait environ 118 000 phrases. Mais, avant cela, de janvier 2010 à décembre 2015, l’Université d’Oxford et les chercheurs de DeepMind ont entraîné l’Intelligence Artificielle.
De ce fait, le système a progressivement appris à déchiffrer des expressions entières en analysant les figures significatives du mouvement des lèvres de chaque orateur (visèmes pour visual phonemes). Il les a alors associées à des phonèmes (éléments sonores du langage articulé). A titre d’exemple, la langue française en compte 39 contre environ 50 pour la langue anglaise.
Les erreurs relevées étant mineures, leur correction a été aisée. Saviez-vous, par exemple, que les phrases « Il mange des frites » et « Il marche très vite » se composent des mêmes visèmes ? Pour autant, leur sens est totalement différent. Cela explique pourquoi lire sur les lèvres constitue un exercice aussi difficile. Les humains les plus performants peuvent atteindre un taux de 50 % de réussite.
Une Intelligence Artificielle particulièrement douée
Or, le système développé par DeepMind a largement surpassé le taux réalisé par les lecteurs professionnels humains. De même, par rapport à tous les autres systèmes existant de lecture automatique sur les lèvres, il a obtenu de très bons résultats. C’est très encourageant pour le développement de futurs systèmes faisant appel au deep learning.
Pour rendre les données recueillies utilisables pour la lecture automatique sur les lèvres, les chercheurs ont préparé des clips vidéo spécifiques. Leur utilisation a servi pour le machine learning. Ainsi, ils ont pu traiter le problème de décalage d’environ une seconde rencontré entre les flux audio et vidéo. Cela rendait l’apprentissage impossible pour l’IA.
De ce fait, l’établissement de liens corrects entre les formes de la bouche et les sons prononcés a pu être enseigné à l’IA. Le système a alors pu tenir compte de ce décalage. Ensuite, il a réaligné automatiquement les flux audio et vidéo pour les 5 000 heures visionnées. Cela a évité aux chercheurs de devoir réaliser eux-mêmes manuellement la synchronisation…
Les possibles débouchés de cette innovation
A présent, il s’agit de savoir à quoi vont servir les nouvelles capacités de lecture sur les lèvres de l’Intelligence Artificielle. Ainsi, l’écoute de nos conversations privées en lisant sur nos lèvres par des services de renseignement peut constituer notre première crainte. D’ores et déjà, des micros longue portée s’avèrent très performants pour le faire. Il n’en reste pas moins vrai que la possibilité d’une atteinte à la vie privée des personnes existe. C’est pourquoi des organismes comme la CNIL doivent pouvoir réaliser la régulation des usages d’un tel système.
Cependant, il est plus probable que des utilisations grand public soient visées. On peut notamment imaginer que cela pourrait aider les personnes sourdes et malentendantes. Elles sont 5 à 6 millions en France et ce nombre devrait encore croître du fait avéré du vieillissement de la population. Ainsi, elles pourront comprendre ce que nous leur dirons par l’intégration d’applications dans des appareils auditifs de nouvelle génération.
D’une manière plus générale, et contrairement à SIRI d’Apple qui pratique la reconnaissance vocale, la dictée silencieuse de messages et la reconnaissance de la parole dans des environnements bruyants (halls de gares et d’aéroports, centres commerciaux…) ne présenteront plus aucun problème avec ce dispositif.
On peut aussi imaginer qu’après avoir colorisé les vieux films, on puisse souhaiter redonner la parole à ceux qui sont muets par la simple analyse des images.
Comme on peut le constater, le champ des possibles est large et les cas d’usages seront sans aucun doute nombreux.