Crédit photo : image générée avec Imagine.art
A l’occasion de cette rentrée 2024 et 6 mois avant le sommet pour l’action sur l’IA [1] qui se tiendra à Paris les 10 et 11 février 2025, le Service pour la Science et la Technologie (SST) vous propose une petite mise à jour des tendances et avancées de l’IA générative.
Ce deuxième article d’une série de quatre dévoile quelques applicatifs actuels et futurs de l’IA générative et questionne notamment les outils d’évaluation des performances des modèles de fondation. |
Tandis que se prépare le sommet pour l’action sur l’IA [1] qui se tiendra à Paris les 10 et 11 février 2025, poursuivons notre tour d’horizon des tendances et avancées de l’IA générative vu depuis la Baie de San Francisco et la Silicon Valley. L’équipe du service scientifique de San Francisco se tourne cette fois-ci vers les applicatifs de l’IA générative. Si début 2024, la communauté des entrepreneurs et des investisseurs s’inquiétait du phénomène de “bulle IA” (i.e. l’emballement des créations de startups utilisant les grands modèles d’IA généralistes comme des boîtes noires pour développer des applicatifs innovants), on constate aujourd’hui une meilleure structuration de la sphère IA autour des grands enjeux sociétaux et économiques, sur la base de performances mesurables des modèles et systèmes d’IA.
1. Tour d’horizon des nouveaux applicatifs de l’IA
Les applicatifs de l’IA générative sont pléthore et la presse spécialisée s’en fait un relais efficace. Nous choisissons donc de mentionner ici quelques applicatifs moins visibles – mais pourtant d’actualité – de l’IA générative.
IA et sécurité. Avec la Défense, c’est certainement l’un des domaines où l’utilisation de l’IA générative est le plus en train de progresser. Nous écrirons plus en détails à ce sujet dans de futurs articles. A titre d’exemple, au mois d’août, le département de la sécurité intérieure américain (DHS) a annoncé adopter l’IA pour renforcer ses opérations. Sa feuille de route [2] en matière d’IA donne la priorité à une utilisation responsable de l’IA, à la promotion de la sécurité de l’IA et au développement collaboratif de l’IA, en proposant :
- De déployer des projets pilotes pour les enquêtes de sécurité, la gestion des risques et la formation des agents d’immigration;
- De créer le DHS AI Corps, une équipe d’experts axée sur l’amélioration des capacités d’IA au sein du département;
- De créer le DHS AI Safety & Security Board, qui assure la surveillance et les conseils sur les questions liées à l’IA, garantissant que l’IA est utilisée de manière responsable et efficace.
L’objectif pour le DHS est de devenir plus efficace, plus efficient et mieux préparé face aux nouvelles formes de menaces.
IA et mission de service public. Dans le nord de la Baie de San Francisco, la recherche conduite au CITRIS and the Banatao Institute, à l’Université de Californie (UC) Berkeley, illustre la manière dont un établissement de service publique exploite l’IA pour développer des solutions innovantes au service des citoyens et en réponse à des problèmes critiques et urgents, inhérents à la Californie [3], à savoir :
- Prévenir le sans-abrisme via la prédiction des zones à haut risque et le déploiement proactif de ressources. Cette prédiction est établie sur des facteurs tels que le revenu, le coût du logement et l’accès aux services sociaux.
- Garantir la sécurité alimentaire en combinant IA et modification génétique des semis afin d’augmenter leur teneur en éléments nutritifs et leur résistance hydrique. L’analyse repose sur de vastes ensembles de données de génomes végétaux.
- Oeuvrer pour la prise en charge précoce des maladies neurodégénératives en systématisant l’analyse croisée de scanners cérébraux et d’autres données médicales et physiologiques pour détecter les premiers signes de la maladie d’Alzheimer, avant même l’apparition des symptômes.
- Lutter contre les feux de forêt en détectant plus rapidement et avec plus de précision les départs de feux, en coordonnant le déploiement et le travail des équipes sur le terrain, en prédisant les scénarios possibles en temps réel, sur la base d’analyses d’images satellites et de capteurs.
Dans le même temps, le CITRIS réalise des études internes afin d’être en mesure de revendiquer un développement éthique et responsable de l’IA et atteindre un impact global positif sur la population californienne.
IA, environnement et biodiversité. Nous avons récemment publié sur le sujet du rôle de l’IA en recherche environnementale et action climatique [4] La majorité des applications consistent à établir des scénarios et des projections par le biais d’analyses et de modèles prédictifs (feux de forêt, fonte du pergélisol, récifs coralliens, etc.). Cependant, l’IA semble encore sous-exploitée pour tout ce qui touche à l’action climatique, à savoir inventer des solutions concrètes pour freiner et contrebalancer les effets du réchauffement climatique. On peut imaginer plusieurs facteurs qui pourraient ralentir la progression de l’IA dans ce domaine pourtant critique.
- L’orientation des financements publics vers des domaines plus immédiats et moins interdisciplinaires. De nombreux projets de recherche sont motivés par des objectifs à court terme, tels que la publication d’articles ou l’obtention de financements.
- La difficulté d’accéder à des données environnementales complètes, homogènes et de haute qualité, en particulier dans le suivi de phénomènes à long terme et dans des régions reculées.
- Les applications de l’IA dans l’environnement soulèvent des préoccupations éthiques, telles que la confidentialité, les biais, les conséquences non maîtrisées, l’exploitation de données anthropologiques, etc. La résolution de ces questions éthiques est complexe, multi-parties et peut prendre du temps.
- Au-delà des financements, la mise en œuvre de projets à l’intersection des domaines de l’informatique, l’écologie, les sciences environnementales, l’économie, l’anthropologie… pose des difficultés de coordination et de recouvrement des compétences qui peuvent conduire à une recherche fragmentée.
- Enfin nombre de chercheurs n’ont probablement pas encore pris la mesure des capacités réelles de l’IA pour la recherche scientifique.
Il est essentiel de surmonter ces obstacles pour faire progresser le développement et l’application des technologies de l’IA dans la recherche scientifique afin de s’attaquer aux problèmes environnementaux urgents. Dans certains domaines de la recherche, cette adoption de l’IA est pourtant déjà une réalité.
2. Progrès de l’IA générative appliquée à la recherche scientifique
Le Service Scientifique s’est intéressé spécifiquement à la manière dont l’IA générative avait pénétré la sphère des laboratoires de recherche. La section suivante illustre les performances actuelles de l’IA générative appliquée à la recherche scientifique et questionne l’évaluation de ces performances.
Des exemples concrets pour la santé et les technologies numériques
L’IA a déjà pénétré assez largement la sphère de la recherche scientifique, en particulier dans les domaines où l’expérimentation est soit itérative, soit coûteuse et chronophage, soit tout simplement encore impossible.
AlphaFold, à la recherche des protéines du futur. Parmi les premières IA développées spécifiquement pour la recherche, la plus connue est certainement AlphaFold [5]. Il s’agit de la plus grande base de repliement de protéines au monde, et elle a déjà a permis une accélération jamais vue en biologie et en médecine. Développée par DeepMind, AlphaFold est capable de prédire la structure 3D (et donc la fonction) des protéines à partir de leur séquence d’acides aminés avec une précision sans précédent. Elle utilise un réseau neuronal profond pour générer des nouvelles séquences et structures des protéines – en ayant été entraînée sur un ensemble de données massif de structures protéiques connues. Le système prédit d’abord les distances entre les paires d’acides aminés dans la structure protéique, puis il utilise ces informations pour générer un modèle 3D. AlphaFold a obtenu des résultats remarquables, surpassant toutes les autres méthodes lors du concours de référence CASP (Critical Assessment of Protein Structure Prediction). Le système a été utilisé pour prédire les structures de millions de protéines. Par exemple, l’Université de Californie à San Francisco (UCSF) a utilisé AlphaFold pour prédire la structure protéique du SARS-CoV-2, ouvrant ainsi la voie à de nouveaux traitements contre le COVID-19. AlphaFold est particulièrement pertinent dans des domaines tels que la découverte de nouveaux médicaments, de nouveaux biomatériaux ou de nouvelles protéines pour des applications industrielles (biotech).
L’utilisation de l’IA pour la découverte de nouveaux médicaments fait tout de même les frais d’un certain scepticisme [6] parmi la communauté – notamment du fait de l’explosion des startups biomédicales et des investissements massifs dans ce domaine. La mesure du véritable progrès scientifique doit s’appuyer sur des critères d’évaluation mesurables et leur validation expérimentale (à l’image du CASP). L’audit de ces modélisations par des organismes externes est également incontournable, au même titre que pour les médicaments. Enfin, la capacité d’une entreprise à mobiliser l’IA pour faire progresser les nouveaux médicaments à travers les étapes précliniques, plus rapidement que les méthodes traditionnelles, peut être un bon indicateur d’une IA effectivement performante pour la recherche biomédicale.
OpenCRISPR : l’édition du génome à la portée de tous les scientifiques. OpenCRISPR a été développé à l’Innovative Genomics Institute (IGI), un institut commun de UC Berkeley et de UCSF, dirigé par Jennifer Doudna. OpenCRISPR est une plateforme open source pour la conception et l’ingénierie d’outils d’édition du génome CRISPR-Cas9 – une technique puissante qui permet aux scientifiques de modifier les gènes avec précision [7]. L’interface OpenCRISPR permet aux chercheurs de concevoir des ARN guides, les composants clés des systèmes CRISPR-Cas9. Ces ARN guides ciblent des séquences d’ADN spécifiques, ordonnant à l’enzyme Cas9 de réaliser des coupes précises dans le génome. Les chercheurs peuvent ensuite introduire de nouvelles séquences d’ADN pour réparer ou modifier le site de coupe. OpenCRISPR a été utilisé pour obtenir des résultats significatifs dans divers domaines : créer des modèles de maladies, développer de nouvelles thérapies, ou améliorer les cultures agricoles. Spécifiquement, OpenCRISPR a été utilisé pour corriger les défauts génétiques responsables de maladies telles que la drépanocytose et la mucoviscidose. L’accessibilité de cette plateforme démocratise l’accès à cette puissante technologie, permettant aux chercheurs du monde entier d’apporter des contributions significatives à ces domaines.
En recherche, l’IA sert aussi à imaginer des algorithmes inédits. AlphaDev [8] est un produit développé par Google DeepMind pour l’optimisation de logiciels informatiques, qui a mis en lumière des optimisations de code auxquelles l’humain n’avait jamais pensé. La découverte par AlphaDev de nouveaux algorithmes de tri* plus rapides marque une avancée significative en informatique. Ces algorithmes, qui ont été intégrés à une bibliothèque standard** appelée LLVM C++, ont le potentiel d’améliorer les performances d’un large éventail d’applications logicielles, des simulations scientifiques aux systèmes de bases de données. AlphaDev y est parvenu en formulant la tâche de recherche sous la forme d’un jeu à un seul joueur***, auquel a été formé l’agent IA en affinant de manière itérative ses stratégies. C’est ce qu’on appelle l’apprentissage par renforcement, qui a permis à AlphaDev d’explorer un vaste espace de recherche d’algorithmes potentiels et identifier ceux qui étaient à la fois rapides et corrects. Les nouveaux algorithmes découverts par AlphaDev sont basés sur une combinaison de techniques de tri existantes et d’innovations inédites. Ils sont particulièrement efficaces pour trier des listes de moins de 100 éléments, qui sont courantes dans de nombreuses applications du monde réel (par exemple les filtres de tri dans un fichier, ou sur un site web). Outre leur rapidité, ces algorithmes sont également très stables et fiables, ce qui les rend adaptés à une utilisation dans des systèmes critiques. Au-delà de leurs applications pratiques immédiates, la réussite d’AlphaDev a également des implications plus larges pour le domaine de l’informatique, et suggère que l’IA pourrait être utilisée pour résoudre d’autres problèmes complexes tels que l’optimisation, l’apprentissage automatique et, bien sûr, un traitement approfondi du langage naturel. L’intégration des algorithmes d’AlphaDev dans la bibliothèque standard LLVM C++ signifie aussi que ces nouveaux algorithmes seront largement disponibles pour les développeurs.
* Les algorithmes de tri sont des algorithmes utilisés pour organiser les données dans un ordre spécifique, par exemple croissant ou décroissant.
** La bibliothèque standard LLVM C++ est un ensemble de fonctions de code pré-écrites qui peuvent être utilisées par les programmeurs C++ pour effectuer des tâches courantes.
*** Un jeu à un seul jour est joué par une seule personne contre un ordinateur ou un ensemble de règles, où le but est d’atteindre un objectif spécifique.
Ces percées sont souvent le résultat d’un travail certes incroyablement rapide à l’échelle de la recherche (quelques mois), mais qui requiert une grande expertise scientifique pour en garantir la fiabilité et la crédibilité, dans des domaines de très haute criticité (ex. la manipulation génétique). En parallèle de ces développements, le travail des experts consiste aussi et surtout à développer des indicateurs de performance et des protocoles d’évaluation pour ces IA, afin de garantir leur fiabilité.
Des outils pour garder un regard critique sur les performances des IA
Pourquoi est-il nécessaire de développer des outils d’évaluation des performances des modèles d’IA ?
- Garantir la qualité et la fiabilité du modèle : l’évaluation permet de repérer les inexactitudes, les biais ou les lacunes dans les résultats du modèle. En comprenant où le modèle fait des erreurs, les développeurs peuvent affiner les algorithmes et les données d’entraînement pour améliorer de manière continue les performances et progresser sur la question de l’explicabilité. Cela permet aussi de suivre les changements de “comportement” du modèle au fil du temps, d’identifier une dégradation des performances qui pourrait nécessiter un réentraînement du modèle.
- Etablir une comparaison éclairée des modèles : l’évaluation permet de déterminer quel modèle est le plus adapté à une tâche spécifique. En comparant différents modèles, les chercheurs peuvent combiner les forces ou cibler des compromis (ex. concernant la consommation énergétique des modèles pour une performance donnée).
- Faciliter la mitigation des risques : Une évaluation approfondie permet d’identifier les risques potentiels associés au déploiement d’un modèle et renforcer la confiance des utilisateurs. Par exemple, détecter les biais est essentiel pour l’équité et les considérations éthiques.
Les outils d’évaluation des performances des modèles d’IA ont émergé en nombre depuis le déploiement de l’IA générative et la démocratisation des grands modèles de langage (LLM). Parce qu’ils sont dépendants de l’application et des critères d’évaluation (Key Performance Indicator, KPI), l’indice de confiance dans ces outils peut être très variable.
L’outil SciCode [9] permet d’évaluer les performances des modèles de fondation pour la résolution de problèmes scientifiques. L’étude montre que même les LLMs génériques que l’on estime être les plus “performants” ne parviennent à résoudre qu’une faible proportion (voire aucun) des problèmes principaux, soulignant les défis que présentent encore pour l’IA la génération de code scientifique. Développé par de grandes universités américaines en collaboration avec l’agence nationale pour la recherche (NSF), SciCode est un protocole de test de référence évaluant la capacité des modèles de langage à générer du code informatique pour résoudre de vrais problèmes de recherche scientifique, extraits de 16 sous-domaines scientifiques variés (mathématiques, physique, chimie, biologie, science des matériaux, etc.). Ces problèmes ont été imaginés par les scientifiques ayant participé à l’étude afin de tester les capacités de raisonnement scientifique des modèles pour des applications du monde réel. Chaque problème principal est décomposé en plusieurs sous-problèmes requérant l’agrégation de connaissances et de raisonnements. Le résultat de l’évaluation est pondéré en fonction des données d’entrées requises par le modèle évalué. SciCode se distingue d’autres outils similaires de par le fait qu’il se concentre sur les sciences naturelles. Les références existantes se concentrent souvent sur des tâches de programmation générales, négligeant les défis spécifiques du code scientifique. SciCode fournit des données abondantes et de haute qualité, permettant une évaluation robuste. Les modèles les plus avancés peinent à résoudre les problèmes principaux, avec un taux de réussite maximum de 4,6 % dans le contexte le plus exigeant. Les modèles améliorent significativement leurs performances lorsqu’ils disposent d’informations de contexte scientifique, indiquant les lacunes (prévisibles) des LLMs en connaissances scientifiques de base et leur manque de capacités de raisonnement intrinsèques. Avec la progression des modèles vers des capacités de raisonnement accrues, les scores dans SciCode devraient, en théorie, évoluer vers de plus en plus de réussite. Il est intéressant de noter que l’évaluation au niveau des sous-problèmes est généralement mieux réussie par les modèles, suggérant que la décomposition des problèmes complexes en parties plus simples peut être une option d’intérêt si l’on souhaite utiliser des modèles génériques sans avoir à développer des modèles spécifiques.
En conclusion, l’IA générative est en train de révolutionner de nombreux secteurs, de la santé à l’environnement en passant par la sécurité. Les applications sont multiples et prometteuses, mais soulèvent également des questions importantes sur l’évaluation des performances, l’éthique et la responsabilité. Si les progrès sont rapides, il est crucial de développer des outils d’évaluation rigoureux pour garantir la fiabilité et la transparence de ces technologies. Le sommet pour l’action sur l’IA à Paris en février 2025 sera une occasion importante de discuter de ces enjeux, de mettre en avant la portée potentielle de ces découvertes scientifiques augmentées par l’IA, et de définir un cadre éthique pour le développement et l’utilisation de ces IA – génériques ou spécifiques – appliquées à la recherche.
Lire le prochain article de notre série : “Avancées techniques actuelles et futures en matière d’IA générative (3/4)”
Rédactrice :
Emmanuelle Pauliac Vaujour, attachée pour la Science et la Technologie au Consulat général de France à San Francisco, [email protected]
Références :
[1] Sommet pour l’action sur l’IA. | Élysée (elysee.fr)
[2] How DHS Is Leveraging the Power of AI – GovCon Wire
[3] California has problems. AI can help solve them. | University of California
[4] Initiatives en Intelligence Artificielle pour le climat et la biodiversité – France-Science
[5] Putting the power of AlphaFold into the world’s hands – Google DeepMind
[6] Is Generative AI in Drug Discovery Overhyped? (genengnews.com)
[8] AlphaDev discovers faster sorting algorithms – Google DeepMind
[9] SciCode: A Research Coding Benchmark Curated by Scientists (arxiv.org)