Dans un papier publié dans la revue Nature, « Why ‘open’ AI systems are actually closed, and why this matters » , les chercheurs David Gray Widder, Meredith Whittaker et Sarah Myers West interrogent la rhétorique d’une intelligence artificielle dite « ouverte ». Selon eux, ces affirmations manquent le plus souvent de précision et ne résistent pas à l’examen critique : l’ouverture n’empêche pas la concentration industrielle, pas plus qu’elle n’interroge les conditions de production des systèmes d’intelligence artificielle (examination des modèles, de la provenance des données, des conditions de travail et des frameworks). Ce faisant, les grands industriels de l’IA soufflent le chaud et le froid, arguant que l’IA est soit bénéfique pour la démocratie, soit dangereuse : en définitive, il s’agit d’influencer la régulation en concentrant l’attention sur certaines phases de déploiement des systèmes plutôt que toute la chaîne.
Ouverture et « open source »
La définition de IA n’est pas toujours claire. L’IA désigne des systèmes déterministes ou probabilistes, comme ceux qui sont le plus souvent mentionnés aujourd’hui, les grands modèles de langage intensifs en ressources (IA génératives), sur lesquels les auteurs s’arrêtent particulièrement. La notion d’ouverture quant à elle, fait écho aux initiatives open source qui ont émergé il y a des décennies pour, notamment, résister au pouvoir des grandes entreprises. C’est bien cette formule qui est transférée au monde de l’IA, sans pour autant en adopter les canons. Et quand bien même, le mouvement open source dont l’objet était de démocratiser le logiciel et assurer son intégrité et sa sécurité, a également servi de relais auxdites entreprises pour asseoir leur domination. En 1999, IBM finance le système d’exploitation Linux à hauteur d’un milliard de dollars (il s’agit aussi de lutter contre la domination de Microsoft), en 2007, Google investit massivement dans Android (dans le but concurrence Apple), en 2019 Amazon investit dans open-source database MongoDB, et Meta investit dans le framework PyTorch pour imposer sa compatibilité avec le business de l’entreprise.
L’ouverture en tant que telle est par ailleurs variable. Le système LLaMA-3 de Meta par exemple, n’offre pas grand chose de plus qu’une API, avec la possibilité de télécharger un modèle soumis à des restrictions d’utilisation. Les auteurs parlent même d’« Open washing » , pour qualifier ces systèmes qui sont en réalité plutôt fermés.
Affordances de l’IA ouverte
L’IA « ouverte » repose, selon les auteurs, sur trois concepts : la transparence, la réutilisabilité et l’extensibilité.
La transparence invoque la documentation sur les systèmes, les données et poids associés aux modèles. Cependant, cela ne nous dit pas exactement comment un modèle se comporterait dans un contexte donné, ni les propriétés émergentes du système.
La réutilisabilité consiste à rendre disponible un système à des tierces parties. Dans le cas de l’IA, cela présente des avantages pour favoriser la concurrence. Cependant l’accès au marché est soumis à d’autres facteurs que la réutilisabilité n’épuise pas, comme la disponibilité des ressources. Cela est très lisible avec l’entreprise française Mistral qui, pourtant très bien financée, signe avec Microsoft : « Les facteurs qui rendent le terrain de jeu inégal dans le domaine de l’IA incluent les effets de réseau, l’accès aux ensembles de données, l’accès et le coût des ressources informatiques nécessaires pour l’inférence à grande échelle, l’absence d’un modèle économique viable et, actuellement, des taux d’intérêt élevés. »
Enfin, l’extensibilité permet de construire sur la base de modèles prêts à l’emploi, tout en réajustant ses paramètres pour opérer une tâche particulière. Cela revient en somme à utiliser un modèle existant sans repartir de zéro.
Economie politique de l’IA ouverte
Les auteurs auscultent ensuite l’IA dans sa matérialité (modèles, travail, données, frameworks et puissance de calcul). L’idée étant d’évaluer dans quelle mesure ces éléments peuvent être ou non ouverts.
Les modèles d’IA désignent des systèmes algorithmiques qui ont été entraînés dans le but de pouvoir fournir statistiquement des « outputs« à partir d’un corpus de données. ChatGPT par exemple, utilise des données textuelles scrappées sur le web. Ces modèles peuvent être ensuite déployés comme n’importe quel logiciel, sous une licence permettant leur réutilisation. Cependant, réutiliser un modèle déjà entraîné n’oblige en rien à avoir accès aux entraînements sous-jacents, ni aux poids ou autres détails du système. Dès lors, l’ouverture consiste en réalité à fournir une interface pour des systèmes fermés.
De nombreux systèmes « ouverts« existent (LLaMa, Falcon 40B, Mistral 8x22b, etc.), cependant, ils sont loin de tous fonctionner de la même manière. Hugging Face et Stability AI par exemple, proposent des systèmes ouverts mais facturent des services supplémentaires (accès à l’API, entraînement sur des données personnalisées). EleutherAI se concentre exclusivement sur la promotion de la recherche avec une licence open-source Apache 2.0, particulièrement permissive. Le développement de l’IA repose sur une approche « plus c’est grand, plus c’est mieux », mais les informations quant aux données d’entraînement sont de plus en plus opaques (c’est le cas avec ChatGPT, mais aussi Mistral qui invoque la nature compétitive du secteur). Autrement dit, les tiers qui utilisent un modèle existant ne peuvent ni les examiner ni les reproduire.
Les données, ou plutôt leur provenance, demeure également opaque. On sait que leur extraction massive pose des questions en termes de propriété intellectuelle et quoi qu’il en soit, la plupart des acteurs sont à ce sujet, taiseux. Ils ne délivrent même pas d’informations basiques sur leur nature : « Le manque de transparence des données constitue un défi majeur pour toute affirmation concernant les avantages de l’IA ouverte et entrave le type de validation ou de reproductibilité nécessaire à une science rigoureuse. » Par ailleurs, même lorsque les données ne brisent pas la propriété intellectuelle, elles se basent sur le travail de tiers (par exemple, de groupes linguistiques issus du Sud Global comme GhanaNLP et Lesan AI). Pour certains de ces acteurs, cela revient à faire perdurer des mécanismes d’exploitation coloniale. Les chercheurs précisent qu’il ne s’agit pas ici de plaider pour des ensembles de données fermées, mais de comprendre si et comment ils sont utilisés en exploitant commercialement des données sous licence. Par exemple, Github Copilot (l’assistant de programmation de Microsoft) affiche du code sous licence GPL (General public license).
Le travail humain est également scruté dans le papier, dans la mesure où il constitue l’« intelligence » que ces systèmes sont en mesure de fournir. Ce travail peut être grossièrement catégorisé de la manière suivante : étiquetage et classification des données, calibration des modèles (apprentissage par renforcement avec retour humain et processus similaires), modération des contenus, ingénierie, développement de produits et maintenance.
Ce travail permet d’assurer que les modèles fournissent des réponses acceptables et vendables, en évitant d’afficher ou de reproduire des éléments offensants. Ce processus est souvent appelé « apprentissage par renforcement avec retour humain » (ou RLHF). Un terme plutôt technique qui, en réalité, fait référence à des milliers d’heures de travail humain. Pendant ce processus, des travailleurs sont souvent chargés de choisir, parmi plusieurs extraits de texte générés par un système d’IA, celui qui ressemble le plus à un texte produit par un humain. Leurs choix sont ensuite réinjectés dans le système pour affiner son comportement. Or « les entreprises divulguent généralement très peu, voire aucune information sur les pratiques qui soutiennent ces activités, et l’absence de transparence à ce sujet est rarement critiquée comme une forme de fermeture. Ce que nous savons sur ces processus provient principalement du journalisme d’investigation ou des efforts de mobilisation des travailleurs et des chercheurs. » On sait par exemple, que ce travail est aussi fastidieux que mal rémunéré.
Les frameworks (infrastructures logiciels) permettent aux développeurs de coder plus facilement en leur permettant de créer et de déployer des logiciels de manière structurée, prévisible et rapide. Autrement dit : ne pas réinventer la roue. Les deux noms qui dominent dans le développement de l’IA sont PyTorch et TensorFlow. Tous deux ont été créés au sein de grandes entreprises technologiques commerciales, respectivement Meta et Google, qui continuent de les financer et de les maintenir. Ils permettent à ces entreprises et aux autres acteurs influençant le développement de ces cadres de standardiser la construction de l’IA de manière à ce que les résultats soient compatibles avec leurs propres plateformes d’entreprise : « Cela confère aux entreprises offrant les frameworks un pouvoir indirect considérable au sein de l’écosystème : elles forment les développeurs, chercheurs et étudiants utilisant ces outils aux normes de leurs frameworks préférés et contribuent ainsi à définir—et, d’une certaine manière, à capturer—le domaine de l’IA. »
La puissance de calcul fait référence aux ressources informatiques nécessaires pour créer de nouveaux modèles d’IA et utiliser des modèles existants à grande échelle. Cette puissance mise au service de l’entraînement des modèles a augmenté d’une facteur 300 000 en 6 ans.
L’accès à une telle puissance est un obstacle majeur à la réutilisabilité des systèmes d’IA, fussent-ils ouverts. L’entreprise Nvidia, qui domine dans ce domaine, détient de 70 à 90 % des puces d’IA les plus évoluées, et quatre millions de développeurs reposent sur son framework CUDA (88 % des parts de marché), en partie propriétaire. Et les auteurs de résumer : « les ressources informatiques nécessaires pour construire de nouveaux modèles d’IA et utiliser ceux existants à grande échelle (…) sont rares, extrêmement coûteuses et concentrées entre les mains de quelques entreprises seulement (avec Nvidia en tête), qui bénéficient elles-mêmes des économies d’échelle, de la capacité à contrôler les logiciels optimisant l’informatique et de la possibilité de vendre un accès coûteux aux ressources de calcul. »
En conclusion
On se contentera ici de citer les auteurs : « La poursuite de l’IA la plus ouverte ne conduira pas à un écosystème plus diversifié, responsable ou démocratisé, bien qu’elle puisse avoir d’autres avantages. Nous observons également que, comme par le passé, les grandes entreprises technologiques en quête d’avantages dans l’IA utilisent l’IA ouverte pour consolider leur domination sur le marché tout en déployant le discours d’ouverture pour détourner les accusations de monopole de l’IA et de régulation associée. »
Et surtout : « nous avons besoin d’espace pour poser la question du « pourquoi l’IA » dans le contexte des nombreux défis sociaux et écologiques urgents. »