Intelligence artificielle
D’où viennent les données de l’IA générative de contenus ?
Les ChatGPT (OpenAI), Mistral AI ou autres Claude (Anthropic) fournissent-ils des données fiables, véridiques et légales ? Quelles sont leurs sources ? La transparence n’est pas toujours au rendez-vous. La fondation Mozilla le déplore, ainsi que l’autorité européenne de régulation des données personnelles.
Les
données utilisées et reformulées par les plateformes IA
génératrices de contenus posent questions sur leur fraîcheur (de
quand datent-elles ?), leur véracité et leur respect de la vie
privée. La fondation Mozilla (univers des développeurs du logiciel
libre ou "open
source")
avait interpellé OpenAI en mars dernier sur son absence de
transparence à propos des données utilisées dans ChatGPT :
«Ces
modèles d’IA générative s’appuient sur de gigantesques
ensembles de données collectées sur le Web qui contiennent des
contenus néfastes. Ces données doivent donc être filtrées avec
une extrême vigilance, avant de pouvoir être utilisées pour
entraîner des modèles».
Mozilla
s’en prend d’abord à Common
Crawl, une plateforme qui publie des
archives mensuelles à partir de milliards de pages web
souvent mal filtrées (propos racistes, sexuels, etc.), avant de
viser OpenAI : «Nous ne
savons toujours pas comment OpenAI entraîne ses modèles d’IA,
quelles données ils utilisent, comment elles sont collectées,
filtrées ou non dans leurs outils d’IA», dénonce la
fondation qui cite Sam Altman, PDG de la firme : «Je pense que vous pouvez faire des choses
dans le monde… Vous n’avez pas besoin d’attendre, vous n’avez
pas besoin d’obtenir la permission.»
Sauf
que le New York Times a intenté un procès à OpenAI pour
utilisation de données personnelles et de contenus protégés par le
droit d'auteur…L’éditeur de ChatGPT n’est pas le seul visé :
«Google et Microsoft ont accès à d’importantes
quantités de données personnelles de leurs utilisateurs, comme des
conversations privées, des documents financiers ou encore des photos
et des vidéos de famille», ajoute Mozilla, qui constate
que les géants de la tech refusent la transparence, en invoquant le
«contexte concurrentiel».
Véracité,
hélas relative
Un
avertissement a également été lancé par le Comité européen de
la protection des données (EDPB), dont fait partie la Cnil pour la
France : «Les efforts fournis jusqu'ici par OpenAI ne sont
pas suffisants pour assurer le respect du règlement européen sur
les données personnelles (RGPD). (…) Leur principe même est
d'extraire des données issues de sites Internet pour former et
enrichir leurs modèles. Or, parmi ces données, il y a
inévitablement des données à caractère personnel».
Maartje
de Graaf, avocate
spécialisée dans la protection des données (Noyb),
alerte : «Inventer
de fausses informations est déjà problématique en soi. Mais
lorsqu'il s'agit de fausses informations sur des personnes, les
conséquences peuvent être graves».
ChatGPT 4 le dit lui-même : «La
qualité et la véracité des informations dépendent des sources
d’où elles proviennent. Les modèles GPT-4 tentent de filtrer les
informations inexactes, mais ils ne sont pas infaillibles.»
Il
existe effectivement des méthodes de filtrage (scores de
perplexité, "n-grams",
etc.) : pas toujours efficaces. Ainsi la plateforme IA
générative Anthropic avec ses modèles Claude 2 (130 milliards de
paramètres) et Claude 3 qui arrivent en France, soutient que ses
données sont essentiellement issues de la communauté "open
source" (extraits d’ouvrages, articles
de recherche) et que sa plateforme utilise des mécanismes capables
de réduire les biais, écarter les réponses nuisibles et filtrer
les données privées. À voir.
Hallucinations,
toujours
S’agissant
de ChatGPT, personne ne peut garantir
qu’il fournisse toujours des informations correctes. Rappelons
qu’il peut «halluciner»,
c’est-à-dire inventer des réponses, calculer des déductions
erronées à partir de données non valides. D’où ces formules
qu’il est fortement conseillé d’insérer dans les "prompts" (requêtes) : n’invente pas, donne tes sources, cherche dans
tels ou tels médias...
ChatGPT
4 écrit que ses données proviennent de
«diverses sources disponibles
sur Internet jusqu’en septembre 2021. Cela inclut des livres,
un large éventail de sites web et d’articles couvrant divers
sujets, des encyclopédies en ligne, articles de recherche, des
extraits de livres numérisés et de publications académiques
disponibles en ligne, des bases de données publiques, des forums,
des blogs, articles de presse et d’autres contenus textuels. (…)
Toute information, événement ou développement survenu après
septembre 2021 n’est pas inclus dans le modèle».
Ce n’est plus vrai.
Pressé
de fournir des précisions, le générateur de contenu ajoute : «Les
données spécifiques et détaillées telles que le nombre exact de
sites web ou d’articles utilisés ne sont pas publiées par OpenAI
pour des raisons de confidentialité et de propriété intellectuelle
(…). Mais il est largement reconnu que les données utilisées se
comptent en centaines de milliards de mots».
GPT-3 aurait été «formé sur
environ 570 giga-octets de textes filtrés après un prétraitement à
partir de sources publiques et de licences».
En 2020, l’université
américaine Cornell écrivait que
le modèle GPT-3 comptait 175 milliards de «paramètres».
Lors de la sortie de ChatGPT-4, à la fin 2023, les experts ont
mentionné 170 trillions (milliers de
milliards, aux Etats-Unis) de «paramètres». Nous n'en savons pas plus.
Comparativement,
alors que la version 7B du français MistralAI (sept. 2023) comptait
7 milliards de paramètres issus d’Internet sous licence Apache
2.0, la version 8x22b vient de dépasser les 176 milliards. Cet
éditeur a introduit une licence «non-production»
destinée à la recherche et fermée aux usages commerciaux. Son
assistant conversationnel «Le Chat» reste
gratuit.
Grand
flou sur les droits d’auteur
À propos des droits d’auteur, OpenAI invoque «des lois complexes qui varient selon les juridictions». Aux États-Unis, par exemple, «l’utilisation équitable permet certains usages limités de contenus protégés par des droits d’auteur sans autorisation préalable (…). Cependant, ajoute la firme contrôlée par Microsoft, il y a un risque que des litiges surgissent». Résultat : comme Google, OpenAI a signé des accords avec de grands médias pour utiliser leurs contenus. Citons notamment celui de 250 M$ signé avec News Corp (The Wall Street Journal, New York Post) ou avec Le Monde (60 M€ avec Google, 6 ou 7 M€/an avec OpenAI), avec Prisa Media en Espagne (El Pais), avec l’agence mondiale Associated Press, le Financial Times, le groupe allemand Axel Springer…Microsoft, plus discrètement, a signé de tels accords (dont un avec News Corp.). L’agence Reuters s’est également rapprochée des entreprises d’IA, sans les mentionner. Même discrétion à l’AFP (qui a signé avec Google, Facebook et Microsoft).