D’où viennent les données de l’IA générative de contenus ?

Les ChatGPT (OpenAI), Mistral AI ou autres Claude (Anthropic) fournissent-ils des données fiables, véridiques et légales ? Quelles sont leurs sources ? La transparence n’est pas toujours au rendez-vous. La fondation Mozilla le déplore, ainsi que l’autorité européenne de régulation des données personnelles.

D’où viennent les données de l’IA générative de contenus ?

Les données utilisées et reformulées par les plateformes IA génératrices de contenus posent questions sur leur fraîcheur (de quand datent-elles ?), leur véracité et leur respect de la vie privée. La fondation Mozilla (univers des développeurs du logiciel libre ou ‘open source’) avait interpellé OpenAI en mars dernier sur son absence de transparence à propos des données utilisées dans ChatGPT : «Ces modèles d’IA générative s’appuient sur de gigantesques ensembles de données collectées sur le Web qui contiennent des contenus néfastes. Ces données doivent donc être filtrées avec une extrême vigilance, avant de pouvoir être utilisées pour entraîner des modèles.»Mozilla s’en prend d’abord à Common Crawl, une plateforme qui publie des archives mensuelles à partir de milliards de pages web souvent mal filtrées (propos racistes, sexuels, etc.), avant de viser OpenAI : «Nous ne savons toujours pas comment OpenAI entraîne ses modèles d’IA, quelles données ils utilisent, comment elles sont collectées, filtrées ou non dans leurs outils d’IA», dénonce la fondation qui cite Sam Altman, pdg de la firme : «Je pense que vous pouvez faire des choses dans le monde… Vous n’avez pas besoin d’attendre, vous n’avez pas besoin d’obtenir la permission.»Sauf que le New York Times a intenté un procès à OpenAI pour utilisation de données personnelles et de contenus protégés par le droit d'auteur…


Véracité, hélas relative

Un avertissement a également été lancé par le Comité européen de la protection des données (EDPB), dont fait partie la Cnil pour la France : «Les efforts fournis jusqu'ici par OpenAI ne sont pas suffisants pour assurer le respect du règlement européen sur les données personnelles (RGPD). (…) Leur principe même est d'extraire des données issues de sites Internet pour former et enrichir leurs modèles. Or, parmi ces données, il y a inévitablement des données à caractère personnel.»


Hallucinations, toujours

S’agissant de ChatGPT, personne ne peut garantir qu’il fournisse toujours des informations correctes. Rappelons qu’il peut «halluciner», c’est à dire inventer des réponses, calculer des déductions erronées à partir de données non valides. D’où ces formules qu’il est fortement conseillé d’insérer dans les ‘prompts’ (requêtes) : n’invente pas, donne tes sources, cherche dans tels ou tels médias...ChatGPT 4 écrit que ses données proviennent de «diverses sources disponibles sur Internet jusqu’en septembre 2021. Cela inclut des livres, un large éventail de sites web et d’articles couvrant divers sujets, des encyclopédies en ligne, articles de recherche, des extraits de livres numérisés et de publications académiques disponibles en ligne, des bases de données publiques, des forums, des blogs, articles de presse et d’autres contenus textuels. (…) Toute information, événement ou développement survenu après septembre 2021 n’est pas inclus dans le modèle.» Ce n’est plus vrai.Pressé de fournir des précisions, le générateur de contenu ajoute : «Les données spécifiques et détaillées telles que le nombre exact de sites web ou d’articles utilisés ne sont pas publiées par OpenAI pour des raisons de confidentialité et de propriété intellectuelle (…). Mais il est largement reconnu que les données utilisées se comptent en centaines de milliards de mots.» GPT-3 aurait été «formé sur environ 570 giga-octets de textes filtrés après un prétraitement à partir de sources publiques et de licences.» En 2020, l’université américaine Cornell écrivait que le modèle GPT-3 comptait 175 milliards de «paramètres.» Lors de la sortie de ChatGPT-4, à la fin 2023, les experts ont mentionné 170 trillions (milliers de milliards, aux États-Unis) de «paramètres.» On n’en sait pas plus.


Grand flou sur les droits d’auteur

À propos des droits d’auteur, OpenAI invoque «des lois complexes qui varient selon les juridictions.» Aux États-Unis, par exemple, «l’utilisation équitable permet certains usages limités de contenus protégés par des droits d’auteur sans autorisation préalable (…) . Cependant, ajoute la firme contrôlée par Microsoft,«il y a un risque que des litiges surgissent.» Résultat : comme Google, OpenAI a signé des accords avec de grands médias pour utiliser leurs contenus. Citons notamment celui de250 M$ signé avec News Corp (The Wall Street Journal, New York Post) ou avec Le Monde (60 M€ avec Google, 6 ou 7 M€/an avecOpenAI), avec Prisa Media en Espagne (El Pais), avec l’agence mondiale Associated Press, le Financial Times, le groupe allemand Axel Springer…Microsoft, plus discrètement, a signé de tels accords (dont un avec News Corp.). L’agence Reuters s’est également rapprochée des entreprises d’IA, sans les mentionner. Même discrétion à l’AFP (qui a signé avec Google, Facebook et Microsoft).

Pierre MANGIN