Tech
Reconnaissance vocale : des progrès considérables grâce à l’IA
Les algorithmes de traitement des phonèmes progressent de façon spectaculaire. Avec l’apprentissage automatique, on observe de véritables prouesses, dans des centaines de langues. Le taux de réussite s’améliore : bonne compréhension, transcription et traduction exactes.
Tous les secteurs d’activité peuvent tirer parti de la reconnaissance vocale : médecins, avocats, huissiers, techniciens ou experts qui rédigent des comptes-rendus de visite sans être des virtuoses du clavier, surtout s’ils sont uniquement équipés d’un smartphone ou dictaphone sur le terrain. À titre indicatif, le CHU de Lille a adopté Dragon Medical pour son service de radiologie. Autres cibles : les professionnels du cinéma (dubbing) et tous les personnels des services, en relation avec des publics étrangers. En termes de productivité, le gain de temps peut aller de 25 à 75 %. Et l’exactitude de la transcription dépasser 95 % grâce à l’apprentissage (au moins 15 minutes de rodage, essai de voix). C’est deux à trois fois mieux que la saisie au clavier pour la plupart d’entre nous. Et cela grâce à des microphones unidirectionnels de bonne qualité (certains smartphones en ont deux). Il est possible également d’obtenir une retranscription automatique de fichiers audio (paroles) stockés sur un disque interne ou un périphérique (disque externe, SSD) connecté à un ordinateur personnel. Les solutions à associer s’appellent, entre autres, VoiceMeeter et SpeechLogger (sur Chrome). La reconnaissance vocale, comme interface homme-machine (commande vocale), gagne aussi du terrain : sur les jeux vidéo (cf. Dawn of Ragnarök d’Ubisoft avec MSI), comme dans les avions de chasse ou dans les véhicules autonomes. Ces technologies se mettent également au service des malentendants et malvoyants.
Des progrès fabuleux
Des progrès fabuleux ont été réalisés depuis les années 50 : reconnaissance de chiffres par téléphone. Dans les années 60, les systèmes deviennent numériques et la reconnaissance de phonèmes ou syllabes détachées débute. En 1968, des ordinateurs reconnaissaient jusqu’à 500 mots isolés et l’ordinateur Hal 9000 dans l’Odyssée de l’espace en fait la démonstration. Le traitement d’une phrase nécessitait une heure… En 1970, est conçue la «modélisation par champ» de Markov. Puis les Bell Labs, l’agence américaine ARPA, IBM, l’INRIA en France, etc. améliorent les modèles. En 1986, le projet japonais ATR initie un premier traducteur automatique par téléphone. En 1993, IBM lance le Personnal Dictation System, puis ViaVoice et MedSpeak Radiology ; et Apple son Plain Talk. Et en 1997, l’éditeur de logiciel Dragon System introduit Naturally Speaking, un des premiers logiciels de dictée très efficace, encore leader aujourd’hui (repris après moult péripéties par Nuance Communications, acquis par Microsoft). En parallèle, les fabricants de smartphones ont développé beaucoup de solutions plus ou moins efficaces, jusqu’à Siri sur iPhone (entre autres). Des progrès ont été faits pour extraire les bruits de fond : deux micros scrutent hauteur de son, plage de fréquences, intensité, intermittence… Pour une transcription la plus exacte possible, il faut aussi reconnaître l’intonation de la voix. Ce qui sert, incidemment, à détecter des clients satisfaits, mécontents, très mécontents…
Une vingtaine de solutions
Outre les solutions de Nuance Communications (Dragon Home, etc.), il en existe plus d’une vingtaine sur le marché à commencer par celles disponibles en open source, autour du projet Common Voice de la fondation Mozilla ou dans l’univers Google ou Amazon (Alexa). Citons Trint (pour débutants motivés), Express Scribe (médical, juridique…), Braina, Dictation, Philips SpeechLive, Happyscribe, E-speaking. Ajoutons-y les solutions de constructeurs, comme Mac Contrôle Vocal ou Windows Reconnaissance Vocale. Les tarifs oscillent entre 50 et 200 euros ; et jusqu’à 600 pour les produits spécialisés.
IA et traitements sur le Cloud
Des algorithmes d’intelligence artificielle et la connexion à des serveurs spécialisés sur le Cloud permettent de tendre vers le zéro faute. Le «deep learning» s'appuie des réseaux de neurones artificiels, ou couches de traitement superposées, s’inspirant du cerveau humain. L’un reconnaît les lettres, l’autre les mots, la phrase avec tel ou tel accent, et s’ajoute la compréhension du contexte (retour aux premiers mots de la phrase). Grâce au nouveau modèle LSTM (Long & short-term memory) de Google, il va devenir possible de traduire des discours ou des cours. À deux conditions : un environnement calme et un seul locuteur. Il faut une connexion à Internet et des «puces» spécialisées, identiques à celles des serveurs Tensor Processing Units. Un des enjeux à noter : que les ordinateurs et les interfaces de commande vocale puissent comprendre 200 langues dans le monde, sachant qu’il en existe 7 000 !
Pierre MANGIN