Assistants virtuels sur smartphones : compagnons amis ou espions dopés par l’IA ?
Google Assistant, Siri, Alexa, Bixby, Celia... Ces assistants virtuels sur smartphones ou enceintes connectées, accusés de nous espionner, sont-ils plus efficaces et utiles avec l’intelligence artificielle (IA) ? Quelles sont leurs limites et les risques encourus ?

Les assistants virtuels vocaux, sur smartphone sont apparus il y a plus de dix ans (Matracom avait déjà intégré le vocal avant l’an 2000…). Ils sont aujourd’hui stimulés par l’arrivée de fonctions issues de l’IA.
A l’origine (cf. Siri d’Apple sur iPhone), ces assistants à commande vocale servaient à des recherches en mains libres - typiquement au volant de sa voiture. Alexa d’Amazon est arrivée avec des enceintes pour accompagner les achats en ligne et piloter divers équipements à la maison. Tandis que Google Assistant a été proposé sur smartphone (Android) et sur des enceintes.
Au moins deux géants du smartphone, le coréen Samsung et le chinois Huawei, ont choisi d’intégrer leur solution (Bixby sur Galaxy, et Celia, respectivement), sans parvenir à détrôner les trois champions américains (des GAFA…). Plusieurs initiatives ont tourné court (comme Socratic visant les étudiants, repris puis abandonné par Google).D’autres - Microsoft, OpenAI…privilégient les agents IA pour tous systèmes, sans prioriser le vocal.
De l’assistance à la domotique
De fait, tous les utilisateurs ne s’avisent pas de parler à leur smartphone... En France, 15 à 20 millions de personnes utiliseraient une solution vocale, dont un à deux millions via des enceintes connectées. Il est vrai que ces assistants vocaux sont de plus en plus attrayants et « intelligents » ; ils peuvent faciliter la vie au quotidien lorsqu’on est occupé à conduire, à faire la cuisine (« Donne-moi deux recettes avec céleri ») ou à bricoler de ses deux mains sans pouvoir activer boutons ou écrans. Il suffit de prononcer, haut et clair, le mot magique et le smartphone s’active, lance une recherche sur Internet, trouve et réserve un restaurant, valide une livraison. Il est tout aussi facile d’ouvrir une radio ou une chaîne TV, écouter sa musique favorite, rechercher un film ou appeler un correspondant, dresser une liste de courses (fonction dictaphone avec retranscription), ou encore vérifier son agenda, consulter la météo, chercher un horaire, un itinéraire, régler une alarme réveil à 7h du matin, etc.
En parallèle, pour la domotique, on peut aujourd’hui tout piloter ou presque depuis son smartphone : lancer la machine à café, modifier la température ambiante, ouvrir des volets, un portail, un système d’aération, un éclairage, ou encore activer une alarme au moment de sortir de chez soi… Quantité d’équipements sont pré-connectés à Internet - chauffage, climatisation, etc. Le paramétrage est aisé (cf. interfaces HomeKit pour Apple, Google Home, Samsung SmartThings, Homey…). Ou il suffit de connecter en wifi des prises électriques actionnables à distance, via Internet.
Ainsi, le smartphone s’érige en poste de contrôle universel. Depuis quelques années, on a vu apparaître quantité d’applications assurant le suivi et la régulation des équipements, leur consommation énergétique, avec génération de tableaux de bord, etc. Les interfaces sont très intuitives, graphiques, quasi ludiques.
Le tournant IA
La fiabilité de ces dispositifs a beaucoup progressé. Les systèmes apprennent à reconnaître les termes clés et comprennent de mieux en mieux les instructions données oralement en langage naturel, même dans des environnements bruyants ou lorsque les commandes s’enchaînent rapidement - ce qu’il est recommandé de tester.
Une nouvelle page est en train de s’écrire à l’intersection des univers des assistants IA et des commandes d’objets connectés (IoT), avec la capacité d’apprendre et de mémoriser nos pratiques quotidiennes. C’est, par exemple sur le smartphone Pixel de Google, la combinaison entre l’IA Gemini et l’Assistant vocal. C’est également la caractéristique du nouveau Alexa+ d’Amazon, proposé avec les nouvelles enceintes Echo show, les écouteurs ou les Fire TV (20 euros/mois ou gratuit… avec Amazon Prime) : des fonctionnalités ont été ajoutées utilisant l’IA générative, par exemple pour détecter et interpréter les émotions ou humeurs des personnes, rendant les interactions plus naturelles, plus fluides et personnalisées.
Espionnage ou simple profilage ?
Il reste la question de la confidentialité des données échangées avec les plateformes, que ces échanges soient vocaux ou écrits. Apple a accepté, fin 2024, de verser 95 M$ pour avoir écouté et stocké, jusqu’il y a cinq ans, des milliers d’enregistrements à partir de Siri. La Ligue des Droits de l’Homme s’est emparée du dossier. Il y a peu, des sociétés de marketing publicitaires, dont Mindshift, proposaient encore de tels services. Amazon, qui n’a pas nié le ciblage publicitaire et la non-suppression de données collectées, s’était résolu à verser 30 M€, avec dommages et intérêts.
Selon l’éditeur de solutions de cybersécurité Kasperky, les cas d’écoute clandestine de conversations seraient rares ou très rares : « Les annonceurs disposent de nombreux moyens, moins spectaculaires et bien plus efficaces, de cibler leurs annonces. L’analyse constante de flux audio de millions d’utilisateurs nécessiterait une puissance de calcul colossale et n’aurait aucun sens financièrement, car les bénéfices publicitaires ne pourraient jamais couvrir les coûts d’un tel ciblage ».
Cela dit, le doute subsiste là où il y a déjà écoute quasi permanente des commandes vocales - sur les smartphones, enceintes et TV « intelligentes ». Les enceintes connectées sont les équipements les plus susceptibles d’écouter en permanence. D’où la recommandation, reprise également par la Cnil (Commission nationale Informatique et Libertés), de désactiver le microphone, lorsque l’assistant vocal personnel n’est pas utilisé.
Pierre MANGIN