Enjeux éthique des IA génératives : séance de rattrapage

Je débute une nécessaire séance de rattrapage sur les IA génératives, après quelques mois passés dans les technologies… spatiales (guettez vos librairies en février). Ces quelques fragments sont donc à prendre comme une note de veille et de ressources qui sera à prolonger, alors que l’excitation post-ChatGPT est encore bien vive.
 

IA génératives, les bases

 
J’ai commencé par lire ou relire les indispensables, à commencer par l’excellent « ChatGPT : comment ça marche ? », de Pierre-Carl Langlais, pédagogique, avec un bel effort de visualisation. Très bon travail également au laboratoire Linc de la CNIL, avec un « Dossier IA génératives » en 4 épisodes particulièrement bien ficelé. La CNIL fait le point sur les régulations qui peuvent déjà s’appliquer aux LLM (droit d’auteur, protection de données) et rappelle que le « vide juridique » n’existe pas, parlons plutôt de « flou ». La fin du dossier interroge les risques liés aux IA génératives, aux hallucinations (= des réponses fausses), à l’hameçonnage, en passant par l’industrialisation de la désinformation et la synthèse vocale utilisée à des fins malveillantes. Le dossier pose enfin les limites des outils de détection des IA par l’IA (seulement 26 % des textes sont correctement labellisés par des outils comme DetectChatGPT ou GPTZero).
 
On notera aussi le lancement d’une réflexion du côté du Conseil National du Numerique (CNNum) en juillet 2023, avec une première tribune publiée dans le journal La Croix et plusieurs interviews d’expert·es déjà publié sur leur site. On peut saluer les efforts du Conseil pour « mettre le numérique au cœur du débat démocratique » (et on aimerait surtout que ce soit vraiment le cas).
 
Pour rester dans la sphère institutionnel, l’Avis N°3 du Comité national pilote d’éthique du numérique, plus ancien, posait déjà bien certains enjeux liés aux agents conversationnels, avec des préconisations intéressantes comme le fait d’affirmer clairement leur statut, encadrer les « dead bots » et l’usage des bots dans les jouets. À l’heure où Facebook se lance dans les amis virtuels « AI-Powered » à la manière du film « Her », ces préconisations devraient nous secouer.  NB : pas impossible que le tout finisse par un énorme flop, comme d’autres idées de Mark Zuckerberg.
 
Notons que ce même Comité publiait en juin 2023 un autre avis (N°7) spécifiquement sur les IA génératives, avis qui reste général mais a le mérite de lister les grandes questions que posent les LMM. Fait notable : le rapport avance que « dans le cadre du AI Act européen, il est nécessaire de considérer les modèles de fondation mis sur le marché et les systèmes d’IA générative comme des systèmes d’IA à haut risque » (Préconisation G7) – une proposition forte, mais qui n’a pas résisté au lobbying des acteurs du secteur : l’IA Act ne considère plus ces systèmes comme tels, apprenait-on dans NextInpact. Le reste des préconisations appelle également à la vigilance.
 

Moratoires et interdictions

 
Autre passage obligé, les papiers de l’indispensable journaliste Hubert Guillaud, et notamment « Réguler l’IA générative ? », où il revient sur les travaux en cours du côté de la Maison blanche début 2023, et « Un moratoire pour aller où ? », où il pointe toute l’ambiguïté (l’hypocrisie même), de l’appel publié par l’Institut pour le futur de la vie pour mettre en pause les développements de l’IA, au prétexte  notamment, qu’ils pourraient mener à des risques « existentiels » à long terme. Vision « long-termiste » dont j’avais longuement rendu compte l’année dernière, et qui nous détourne des risques bien présents posés par les IA : désinformation, sécurité des données, etc.
 
Pour continuer sur les interdictions, le texte de Dominique Boullier dans AOC « Sciences Po a eu raison d’interdire ChatGPT » est vraiment savoureux. N’y voir aucun dogmatisme, le sociologue y rappelle juste que si ChatGPT « suscite tant de débats, c’est parce que la stratégie commerciale d’Open AI adopte la stratégie du choc (Naomi Klein), qui sidère et oblige à choisir son camp ». Pour emprunter la formule à Tariq Krim, les « suprémacistes de la technique » arguent toujours qu’il est trop tard pour réguler – de quoi balayer toute tentative d’une « régulation by design » pourtant nécessaire. De quoi évacuer aussi, toute tentative de re-démocratiser le progrès technique, comme le proposaient Callon, Lascoumes et Barthe dans leur ouvrage « Agir dans un monde incertain » (2000) – c’était aussi le sujet de mon précédent livre « Technologies partout, démocratie nulle part », toujours d’actualité.
 
Dans le monde de la tech, les avis sur l’avenir de l’IA sont sans surprise, divergents. Je conseille à ce sujet l’excellente cartographie de ces avis parmi les expert·es de l’IA (chercheur·ses, entrepreneur·ses, etc.) que proposent Eliza Strickland et Glenn Zorpette dans un papier publié sur IEEE Spectrum : « The AI apocalypse, a socrecard ». Quels sont les risques ? Va-t-on vers une intelligence artificielle générale ? Etc. On comprend vite que les chercheur·ses rigoureux·ses ne s’attardent pas trop sur les risques les plus loufoques.
 
 

Controverses génératives

 
Ce qui nous amène au point chaud des controverses. Je ne suis pas loin de rejoindre le philosophe Daniel Andler dans son papier « ChatGPT et l’IA générative : beaucoup de bruit pour beaucoup de chose » où il rappelle que si on s’arrête à ce que ChatGPT fait mal, on passe à côté de ce qu’il fait bien : des textes simples, utiles pour les gens qui ne sont pas à l’aise à l’écrit par exemple. Si ChatGPT ne référence rien, ou le fait mal, il reste que pour rédiger une lettre de motivation, un post, une pétition, etc. sans faire de fautes, l’outil est utile. Il ne corrige évidemment pas les écarts en termes de ressources sociales qui permettent ou non de chercher un emploi ou oser s’adresser à une institution, mais on peut s’imaginer qu’il peut faire office de coup de pouce pour certain·es. Cela n’empêche pas Andler d’appeler à interdire les « simulacres de personnes » qui pourraient nous induire en erreur de mille façon particulières. Écho aux recommandations du Comité national pilote d’éthique du numérique.
 
Sur le versant environnemental, comme souvent, on peine à calculer avec précision les effets de ces systèmes techniques. Mais certain·es s’y mettent. Je ne citerai ici que l’article « Making AI Less « Thirsty »: Uncovering and Addressing the Secret Water Footprint of AI Models » (pre print) de Shaolei Ren et ses collègues, qui ont montré que l’entraînement de ChatGPT3 dans les data centers de Microsoft avait nécessité 700 000 litres d’eau. Et d’ajouter qu’une vingtaine de questions échangées avec l’IA génératives équivaudraient à 500ml d’eau.
 
Une réalité matérielle que rappelle très bien le chercheur Olivier Ertzscheid dans son récent papier « Du Web sémantique au Web synthétique » (qui est aussi l’introduction d’un livre à paraître chez C&F Éditions). Pour le citer plus précisémment :  « si “l’intelligence artificielle” est aujourd’hui partout, il faut aller au bout de la métaphore de l’artificialisation et se se rappeler ce qu’elle produit à l’échelle des sols ou des milieux naturels quand elle est mise en oeuvre : elle les épuise, elle diminue leur capacité de résilience et elle réduit leur biodiversité. »
 
Mais ce n’est pas tellement le sujet du papier, plutôt sa conclusion. Ertzscheid y explique surtout que le passage vers le « web synthétique » (= un web dont le contenu est largement produit par des bots et des IA) répond à l’objectif des magnats de la tech, qui « n’est plus de permettre à l’humanité de se parler ni même de nous permettre de dialoguer avec des robots, mais de permettre à des robots de nous parler pour nous indiquer quoi faire, que dire et où regarder. » Dès lors, le web est-il encore une création sociale ?
 

IA génératives et moteurs de recherche : un serpent qui se mord la queue

 
Parmi les derniers errements de l’intelligence artificielle, il me semble bon de s’attarder sur l’effet que produisent leurs hallucinations sur les moteurs de recherche. Un récent article de Wired « Chatbot Hallucinations Are Poisoning Web Search » montrait ainsi que maintenant que les robots écrivent massivement sur le web, leur contenu se retrouve crawlé par les moteurs de recherche qui recrachent leurs hallucinations, avec un ranking qui peut être assez haut. Autrement dit, on pourrait indirectement utiliser les contenus de ces IA pour manipuler les résultats des recherches.
 
Un écho à un événement que rappelle Anouch Seydtaghia dans un papier pour Le Temps, « Le début d’un gros problème: Google hallucine sur les… hallucinations de ChatGPT » : Google a apparemment répondu à une requête qu’il était possible de faire fondre un oeuf, en se basant sur un post publié sur le site Quora. Cette hallucination avait à l’origine été écrite par ChatGPT : « Google s’est donc fait avoir par Quora, qui lui-même s’est fait avoir par ChatGPT ». Partant du principe que de plus en plus de contenu va être écrit par des IA génératives, on peut s’interroger à double titre sur leur capacité à 1/ « remplacer » les moteurs de recherche pour un certain nombre d’usages (avec quels résultats ?) et 2/ pourrir les résultats des moteurs de recherche existants.
 

Vérifier une source (ou pas) : où en est le monde de la tech ?

 
Je dois dire que c’est un point qui m’obsède. L’incapacité à vérifier une source n’est certes pas un problème nouveau : nous sommes à l’ère des Fake news. Et d’ailleurs, même une source vérifiée ne suffit pas toujours à convaincre. Il y a des faits que la raison refuse, pour des raisons diverses, sociales, idéologiques, etc. Sortis de ces sphères dite « grand public » (on sait bien qu’il n’existe pas), j’ai naïvement considéré que dans le petit monde de la tech dont je fais partie, ces compétences de vérification seraient acquises. Ce n’est pas le cas. Je le dis sans condescendance car je pense que c’est un simple problème de formation, mais si on s’inquiète du mauvais usage de ChatGPT, il faut aussi considérer le mauvais usage de Google pour une simple recherche. Des actions comme rechercher un .pdf (et donc un document un peu officiel), utiliser des guillemets ou des opérateurs, comparer des images, etc. ne sont souvent pas maîtrisées.
 
De même, on oublie parfois de vérifier les chiffres (par exemple : publiés dans un article de presse généraliste), de revenir à leur source (par exemple, un article scientifique), de les remettre en contexte et voir quels autres chiffres donnent à voir une même réalité avec plus de nuances. Tout aussi fréquemment, on oublie de jeter un oeil aux auteur·ices de l’article, vérifier d’où ils ou elles parlent, qui finance l’étude, etc. Bref, j’enfonce certainement une porte ouverte mais si ces réflexes ne sont pas acquis, je vois mal comment une réponse ChatGPT stéréotypée pourrait être prise avec le recul nécessaire.
 
L’étude menée par Harvard et le MIT auprès de 758 consultant·es du Boston Consulting Group (BCG) « How People Can Create—and Destroy—Value with Generative AI » l’illustre bien. Si on constate une augmentation de la productivité liée à l’IA dans certains tâches (pas toutes), une des conclusions est que les consultant·es qui utilisent l’IA pour des tâches qu’ils pourraient aussi résoudre seul·es ont tendance à se laisser convaincre par ChatGPT4, même lorsque la réponse est fausse. L’étude ne précise pas de quel problème il s’agit. Cependant, j’ai eu l’occasion de le vérifier dans mon entourage avec des tâches aussi simples qu’une recherche : ChatGPT renvoie des résultats plutôt bons lorsqu’il reste dans la généralité. On peut donc considérer que la tâche « recherche » est effectuée plus rapidement. Cependant, on oublie trop rapidement que chercher revient aussi à sélectionner, et à apprendre en dehors des marges de la sélection. C’est plus long, mais c’est plus formateur.
 
À ce sujet, je découvrais récemment Petal (voir la démo), un IA générative utilisée notamment par le MIT, qui permet d’effectuer des recherches croisées entre plusieurs articles de recherche. Il me faudra y revenir plus longuement, mais je vois un intérêt sérieux à ce genre d’outil, qui utilise bien tout le potentiel des IA en évitant certains des leurs écueils.
 
S’abonner
Notifier de
guest
2 Commentaires
Inline Feedbacks
View all comments
trackback

[…] Enjeux éthique des IA génératives : séance de rattrapage. Si vous voulez reprendre (calmement) le sujet des IA génératives, un peu après la hype frénétique qui empêche de penser, vous le pouvez grâce à cet excellent article. […]