IA : la qualité des données ne suffit pas

Dans un article sur One Zero, Marianne Bellotti (@bellmar), anthropologue et autrice de Kill It with Fire: Manage Aging Computer Systems (2021) pose une question stimulante : si les humains ne prennent pas toujours de meilleures décisions lorsqu’ils ont accès à plus d’information, alors pourquoi croyons-nous qu’il en irait différemment avec l’intelligence artificielle ?

Les hypothèses de l’intelligence artificielle comme outil d’aide à la décision

Marianne Bellotti introduit son propos avec la description d’une rencontre entre Larry Page (Google), Elon Musk (SpaceX), Jeff Bezos (Amazon) et Evan Williams (Twitter). Nous sommes en 2008, ces hommes déjà bien lotis ne savent pas encore ce qui les attend. Neuf heures durant, ils prêteront l’oreille à différents scientifiques nobélisés mandatés pour leur enseigner ce qui motive les décisions humaines. Un savoir qu’ils appliqueront tant à la gestion de leurs business – pour dépasser la concurrence – que les programmes d’intelligence artificielle dont ils sont partie-prenantes. Il ne fut aucunement question cependant de la qualité des données. Dans la salle, des économistes comportementalistes ont déjà abandonné l’idée que l’homme et les machines pourraient un jour prendre des décisions rationnelles sur la base de données débarrassées de leurs aspérités et de leurs biais, la question est plutôt de savoir comment s’en accommoder.

Le nettoyage des données est consubstantiel à leur collecte. Depuis que cette collecte existe, le département de la Défense des États-Unis (DoD) a dépensé des milliards pour « cleaner » les données (entre 11 et 15 chaque année), quant aux data scientists, ils passeraient jusqu’à 80% de leurs temps à trouver, nettoyer, réorganiser les données et seulement 20% à leur analyse pure et dure (on parle aussi de « data preparation »). Pourtant, feint de s’étonner Bellotti, après des décennies d’investissement, nous ne sommes pas plus près du cerveau électronique que dans les années 1970. Les ordinateurs sont certes plus puissants, mais la quantité de données a explosé. La voiture autonome reste encore un horizon lointain, malgré des investissements pharaoniques, et il faut encore des quantités de petites mains pour modérer les conversations sur les réseaux sociaux.

Et si L’IA résolvait les mauvais problèmes ?

Dans tout processus consistant à résoudre un problème techniquement, il y a des hypothèses. Et il est important de connaître ces hypothèses pour savoir dans quelle mesure elles viennent influencer la solution technique. Quel problème tentons-nous de résoudre et, si ces hypothèses venaient à changer, souhaiterions-nous toujours résoudre de même problème ?

En ce qui concerne l’IA, une hypothèse forte est que nous attendons qu’elle nous permette de prendre de meilleures décisions. Nous partons du principe qu’une connaissance parfaite d’une situation est souhaitable car elle permettrait d’aiguiller les décideurs dans leurs prises de décision. Et une bonne décision conduirait à moins d’impacts négatifs. Cependant, il s’avère que les mécanismes de prise de décision ne donnent pas autant d’importance à la connaissance : « dans la vraie vie, les décideurs font en sorte d’économiser l’effort ». Avoir une information exhaustive sur un problème en vue de prendre la bonne décision n’est finalement pas plus important que le fait d’avoir des outils qui optimisent l’effort de l’équipe en charge de la décision. D’ailleurs, le fait même de posséder un maximum d’information ne garantit pas que celle-ci soit la bonne. Il y a toujours une part de hasard, une part de chance…

La bonne décision est moins liée à la quantité d’information qu’à la bonne négociation des acteurs impliqués dans cette décision. Au final, l’information sert plus à protéger les décisionnaires qu’à décider justement quoi faire et, dans le pire des cas, l’information peut même ajouter du bruit et ne pas faciliter la prise de décision (un constat que faisait également Zeynep Tufecki, c’est le fameux « paradoxe du choix » que nous avons tous vécu en nous promenant à travers 200 chaînes de télévisions ou séries, sans parvenir à se fixer). Marianne Bellotti écrit : « cela peut semble incroyable : alors qu’une information « parfaite » devrait supposément automatiquement améliorer le processus de prise de décision, ce n’est pas le cas, parce que plus d’information ne change que rarement les agencements politiques derrière une décision. » Plus que de l’information supplémentaire, nous aurions donc besoin d’améliorer la communication entre les parties-prenantes du processus de décision. Dès lors, une question se pose : est-il utile d’investir autant dans le nettoyage des données ?

« Nettoyer » les données ou protéger les systèmes ?

C’est toute la question. Pour Marianne Bellotti, parler de « clean data » est problématique car cela laisse entendre que la donnée pourrait se trouver dans un état de précision ultime, dénuée de biais, et réutilisable dans tous les contextes. Il y a de multiples façons pour une donnée d’être corrompue, inexacte, ou dans un mauvais format. Il peut arriver également qu’une donnée soit correcte mais piochée dans un contexte et réutilisé dans un autre. Ajoutons qu’on peut aussi très bien avoir une donnée correcte mais catégorisée d’une manière discutable (par exemple la catégorie « individu à haut risque » ou « affecté par le diabète » ou encore « victime de viol » sont sujettes à interprétation et à caution… Les données sont toujours liées à un contexte socio-historique et tributaires d’impératifs économiques.

Nettoyer ces données dans un environnement complexe et sujet à des attaques de la part d’adversaire n’est pas chose aisée, rappelle Bellotti. La mise en données d’infrastructures critiques comme les centrales énergétiques, les transports publics, ou encore les images satellites des territoires ouvre de nombreuses occasions de saboter les systèmes, comme c’est le cas avec les méthodes dites de « location spoofing » qui permettent de crééer des Deepfakes d’images satellites, en appliquant à une ville les caractéristiques d’une autre, une tricherie qui peut passer inaperçue pour un œil non averti. Marianne Bellotti conclut : « nos systèmes dépendent de la qualité des données non pas parce que la technologies est immature, mais parce que nous les avons conçus de sorte qu’ils sont vulnérables » (NB : Marianne Bellotti travaille spécifiquement sur les erreurs humaines, la sécurité des systèmes et les accidents, notamment dans le domaine militaire, autrement dit, elle s’inquiète moins d’une erreur dans une recommandation de chaussures sur un site de e-commerce que d’un missile lancé pour une mauvaise raison), dès lors, rappelle-t-elle, il s’agirait de les rendre résilient aux mauvaises données. En un mot, il faut rendre l’intelligence artificielle « antifragile ».

Vers une IA « antifragile » ?

L’antifragilité, comme l’a théorisée Nassim Taleb dans son ouvrage éponyme, est la capacité d’un système à se renforcer en cas de stress, de chocs ou d’attaques. Pour prendre de bonnes décisions, nous dit Bellotti, les sciences cognitives expliquent qu’il est nécessaire d’articuler les bonnes hypothèses avec les bons tests – pour éprouver ces hypothèses – et les bons canaux de communication avec les différentes parties-prenantes d’une décision (ce qui est déjà, en soi, une question hautement politique). Si l’un ou l’autre de ces étapes échoue, alors la décision est susceptible de ne pas convenir à l’une ou l’autre des parties, voire pour tous.

Une IA antifragile consisterait moins à trier et reconnaître qu’à suggérer et à contextualiser. L’autrice précise : « rappelons-nous que l’idée des décideurs est d’économiser l’effort, ce qui signifie que dès qu’une recommandation issue d’une IA peut servir de conclusion, alors elle sera sélectionnée, et ce à moins que l’expérience utilisateur rende cela difficile. » C’est bien ce qui explique pourquoi les systèmes utilisés pour « prévoir » le crime ont été si controversés : les « outputs » de ces modèles ont été pris pour argent comptant, et non pas comme des manières de contextualiser une décision. Bellotti note que dans le domaine médical, l’IA a été en mesure d’apporter une aide à la décision car beaucoup de diagnostics ne conduisent pas à une cause unique. Un ensemble de symptôme peut être lié à différentes causes, suivant différentes probabilités. L’idée même du diagnostic est de valider des hypothèses, puis de réduire le nombre de causes possibles afin de trouver une solution. Certaines applications de l’IA peuvent être utiles dans ce domaine, avant tout pour améliorer la communication entre les soignants et les malades (par analyse de l’intonation par exemple). Cependant, l’IA utilisée à des fins de diagnostic pèche encore, dans la détection du cancer par exemple, ou la détection du Covid-19.

Notons que l’application de l’antifragilité à l’IA, et son interprétation, ne mène pas toujours au raisonnement de Marianne Bellotti. En 2018, Cami Rosso posait dans Psychology Today l’idée inverse. Partant du principe que la fragilité de l’IA provenait avant tout des humains sélectionnant les datas, celle-ci proposait tout simplement de développer des systèmes d’intelligence artificielle auto-régulateurs, capables par exemple de détecter leurs propres biais, ou de mieux catégoriser les données… Pas sûr que cela nous avance beaucoup.

***

En conclusion, écrit Marianne Bellotti, si l’objectif de l’IA est d’apporter une aide à la décision, alors elle devrait orienter les décideurs vers la validation de leurs hypothèses, et non pas tenter de remplacer l’expertise. Quand l’IA est pensée pour remplacer l’expertise, alors elle demande devient complètement dépendante de la qualité des données, et beaucoup plus vulnérables aux erreurs et aux attaques. Au contraire, quand l’IA est pensée comme un simple support à la décision, en présentant les différentes options dans différents cas spécifiques, alors elle est plus résiliente, et renforce la capacité des parties prenantes à prendre une décision.

S’abonner
Notifier de
guest
1 Commentaire
Inline Feedbacks
View all comments
trackback

[…] IA : la qualité des données ne suffit pas (maisouvaleweb.fr) […]