Crédit photo : image générée avec OpenAI/DALL.E3
Parmi les grandes thématiques qui seront abordées lors du sommet pour l’action sur l’IA [1], à Paris les 10 et 11 février 2025, la question des futures avancées technologiques de l’IA générative sera au cœur du débat. L’équipe du service scientifique de San Francisco dresse un état des lieux des grands courants scientifiques et techniques qui se dessinent, en 2024, pour être en mesure de relever les défis posés par les grandes ambitions mondiales autour de l’IA générative.
Avancées actuelles de la technologie
Le développement mondial de l’IA repose sur une multitude d’avancées technologiques allant des composants de rupture au stockage des données. A mi-chemin de cette chaîne technologique, cet article se concentre sur les développements techniques récents des systèmes d’IA en matière d’algorithmes et de modèles, afin de décrypter quelques projections plausibles à court et moyen terme pour cette technologie.
Echelle de complexité des systèmes d’IA
A la lueur des développements récents, l’auteur Flavien Chervet propose une hiérarchisation des modèles d’IA [2] simple et compacte, qui aide à se repérer dans le paysage actuel. Cette hiérarchisation est fonction du degré de complexité et de l’échelle de temps anticipé pour le déploiement des systèmes d’IA. Et le constat est que cette échelle de temps se condense de plus en plus rapidement à mesure que l’IA évolue.
- Le premier degré de complexité correspond aux modèles de fondation à proprement parler : les Large Language Models (LLMs) sont destinés à devenir de plus en plus performants dans leur capacité à prédire “le mot suivant”. Leur démocratisation se poursuit par le biais des chatbots (interface de discussion en langage naturel) de plus en plus immersifs. On voit également une accélération sidérante des modèles multi-modaux, LMM (utilisant le texte, la vidéo, le son). Les ressources requises pour ces développements sont colossales, d’où un nombre limité d’acteurs.
- Les gros acteurs dans ce domaine sont par exemple Meta, OpenAI, Google, Anthropic et MistralAI avec leurs modèles respectifs Llama, GPT, Gemini, Claude et Mixtral.
- Le second échelon concerne les déclinaisons plus spécialisées de ces LLMs. A ce jour, les plus évidentes sont les petits modèles de langage (SLM, Small Language Model) ou des modèles entraînés sur des jeux de données maîtrisées (RAG, Retrieval Augmented Generation). Ces données peuvent par exemple être les données d’une entreprise (ex. notices produits ou base de contacts) ou un corpus de documents officiels. De tels modèles visent à obtenir des réponses expertes, basées sur des données factuelles et débarrassées de l’effet d’hallucinations souvent associé aux LLMs. Ces approches sont également économes du point de vue des ressources de calcul.
- Cette tendance rencontre un franc succès côté français. Par exemple, Ekimetrics [3] a conçu le RAG ClimateQ&A [4] qui source ses données à partir de nombreuses publications sérieuses sur le climat, à l’image des rapports du GIEC. ClimateQ&A a la particularité d’être un outil bidirectionnel qui démocratise l’information et fournit des informations sur le changement climatique au grand public. Ekimetrics utilise les recherches réalisées par les utilisateurs sur sa plateforme conversationnelle [5] pour mieux comprendre la perception du changement climatique par le grand public, et affiner la qualité et la précision de ses réponses vis-à-vis des questions posées.
- En France toujours, BNP Paribas a fait le choix de l’efficacité et de la frugalité [6] en combinant les forces de plusieurs petits modèles experts. N’ayant pas les ressources nécessaires et considérant qu’un seul gros modèle n’était pas nécessairement adapté à son besoin, la banque n’a pas développé son propre modèle de fondation. Au lieu de cela, BNP a fait le choix d’utiliser des modèles existants de taille plus petite qui – pour un coût abordable – les aident à traiter des tâches plus spécifiques en phase avec leurs métiers. BNP fait par ailleurs signer une charte à ses data scientists afin que les algorithmes utilisés ne soient pas systématiquement choisis et conçus sur la base de leurs seuls résultats, mais également sur un critère de consommation énergétique.
- Enfin, un LLM dédié au travail collaboratif en langue française et anglaise a vu le jour début 2024. Publié par un consortium européen et développé en France, le LLM open source CroissantLLM [7] inclut dans son corpus d’entraînement un vaste ensemble de données en langue française, qui lui permet également de proposer une bonne retranscription d’éléments issus de la culture française. Ses performances ont fait l’objet d’évaluation par divers protocoles, qui ont révélé d’excellents scores sur le plan de la transparence des réponses, notamment. Ce travail enrichit le paysage des LLMs d’une manière qui permet de mieux intégrer les approches multilingues.
- Le troisième niveau d’IA générative commence à s’inscrire dans un futur proche et concerne les agents IA. Les agents ne se contentent pas d’analyser et de générer des données, ils sont également capables de planifier un enchaînement de tâches complexes afin de répondre à la demande de l’utilisateur. Par exemple composer une chanson dans un style défini à partir d’un simple texte (ex. Suno), ou écrire un code à partir d’une simple commande (ex. Github Copilot). Cet enchaînement peut également amener l’agent à prioriser des choix sans solliciter une consigne de l’utilisateur, ce qui peut s’apparenter à une prise de décision. Ces choix sont guidés par l’atteinte d’un objectif dont on veillera à ce qu’il reste aligné avec celui de l’utilisateur. Ces agents font appel à un ou plusieurs modèles, LLMs ou modèles multimodaux. On commence à voir émerger des modèles dédiés à l’agentivité, que l’on appelle des LAM (Large Action Model), et qui doivent encore gagner en maturité. Dans l’attente, l’approche la plus répandue à ce jour reste la combinaison de modèles et d’agents afin d’automatiser de plus en plus des processus. LOLLMS-WebUI [8] est un exemple d’outil multi-agents disponible en open source et développé par un chercheur français sur la plateforme GitHub.
- Enfin, l’ensemble de ces développements devrait logiquement mener à un quatrième niveau qui verra l’émergence des IA systèmes d’exploitation (OS), fondés entièrement sur des LLMs. Si aujourd’hui il est encore nécessaire de nourrir les IA dans des interfaces dédiés par le biais de prompts en langage naturel, les IA OS devraient pouvoir opérer les actions demandées par l’utilisateur en accédant à des fichiers, des applications et des interfaces (à la manière d’un navigateur). Si l’ordinateur pourrait être la manière privilégiée d’interagir avec ces IA OS dans un premier temps, il y a fort à parier que ces interfaces seront également amenées à évoluer pour intégrer les modalités visuelles, tactiles et auditives de manière plus fluide qu’avec nos assistants actuels (smartphone, montres, écrans, casques AR/VR). Une réalité qui commence à s’inscrire dans le court et le moyen terme.
Précisions techniques sur les développements actuels des modèles et des systèmes d’IA
Sur le plan des avancées technologiques actuelles et à venir, la scène de l’IA générative fourmille jour après jour de nouvelles annonces dont il peut être difficile de saisir les nuances. Pour aller un peu plus loin dans la technicité, cette section propose un décodage d’une partie du “jargon technique de l’IA” et revient sur les différences pratiques de quelques approches répandues de l’IA générative.
Modèles spécifiques vs modèles généralistes. Le fine-tuning [9] est le processus consistant à prendre un modèle de langage de grande taille (LLM) pré-entraîné et à le former davantage sur un petit ensemble de données spécifiques pour améliorer ses performances sur une tâche ou un domaine particulier. Ce processus implique d’ajuster les poids du modèle en fonction du nouvel ensemble de données, lui permettant de mieux générer du contenu pertinent pour des contextes, des terminologies et des nuances spécifiques qui ne sont pas couverts dans la phase d’entraînement générale du modèle.
Le fine-tuning peut par exemple être utilisé lorsque l’on souhaite (i) obtenir des réponses plus pertinentes et précises via l’apprentissage de terminologies et de contextes spécifiques, (ii) donner une coloration cohérente aux réponses qui portent l’empreinte d’une marque ou d’une entreprise, (iii) contrôler les données auxquelles le modèle est exposé et éviter les biais ainsi que les fuites d’informations sensibles, (iv) équiper le modèle pour gérer des scénarios rares mais cruciaux spécifiques à un domaine d’activité. Les cas d’utilisation courants du fine-tuning incluent les tâches à très forte exigence de précision (ex. le traitement du langage médical) ou bien les cas où le modèle doit être performant sur des tâches multiples et répétées ou séquencées, comme par exemple passer systématiquement d’une modalité à une autre.
Le fine-tuning s’appuie tout de même sur les modèles géants généralistes, qui sont souvent pointés du doigt pour la consommation énergétique massive [10] associée à leur phase d’apprentissage. Utilisées pour certaines catégories de tâches, on constate que les architectures d’IA génératives généralistes sont beaucoup plus coûteuses – en termes d’énergie et d’émissions – que les systèmes spécifiques mono-tâches, même en contrôlant le nombre de paramètres du modèle.
Petits modèles (SLM, RAG). Les différences entre le fine-tuning, les SLM et les RAG sont les suivantes :
- Le fine-tuning implique d’ajuster les poids d’un modèle pré-entraîné en utilisant un ensemble de données spécifique. Ce procédé intègre les connaissances directement dans l’architecture du modèle, ce qui peut entraîner des problèmes comme l’oubli catastrophique (la nécessité de tout réapprendre à chaque mise à jour). Il convient pour créer des modèles qui accomplissent très bien des tâches spécifiques.
- Le RAG combine la génération de langage naturel et la récupération d’informations, ancrant les modèles de langage sur des sources de connaissances externes et à jour. Cela permet des mises à jour et des modifications continues des données d’entraînement, garantissant que le modèle reste actuel et précis. Le RAG est particulièrement utile pour les tâches où les faits et les informations évoluent au fil du temps, car il garantit que les résultats du modèle soient basés sur les données les plus récentes disponibles.
- Les SLMs [11] sont des modèles d’IA plus petits et plus efficaces conçus pour les tâches de traitement du langage naturel avec moins de ressources computationnelles. Les SLMs sont conçus pour fournir une alternative économique et accessible aux LLMs, adaptée aux environnements avec des ressources limitées. Les SLMs peuvent aussi répondre à des attentes en termes d’explicabilité* de l’IA, et d’amélioration de la confidentialité et de la sécurité de l’IA. Efficaces en termes de mémoire et de puissance de traitement, les SLMs sont particulièrement adaptés aux déploiements sur appareils et sur site. Cependant, les SLMs peuvent donner l’impression d’une compréhension plus étroite du langage et du contexte, et peuvent ne pas être aussi performants que d’autres modèles sur des tâches complexes.
* Dans le domaine de l’intelligence artificielle, l’explicabilité est la capacité de mettre en relation et de rendre compréhensible les éléments pris en compte par le système d’IA pour la production d’un résultat.
Il est bien entendu possible de combiner les approches pour exploiter leurs atouts respectifs. Une approche hybride [12] consisterait par exemple à utiliser un modèle de petite taille (SLM) pour des tâches nécessitant des réponses rapides et économes en ressources, puis appliquer un fine-tuning à ce modèle pour des tâches spécifiques et complexes. En combinant ces deux approches, on obtient une solution flexible et performante, capable de répondre efficacement à une large gamme de demandes tout en optimisant les ressources et les coûts.
Modèles qui s’améliorent eux-mêmes. Parmi les applications les plus en vue de l’IA générative, on trouve les IA et outils IA conçus pour améliorer l’IA.
Par exemple, AI Chat Feedback [13], de la société Appen, est conçu pour améliorer les modèles d’IA conversationnels. Il permet aux utilisateurs d’interagir avec les modèles et de recueillir des commentaires sur leurs réponses. Ces commentaires sont ensuite utilisés pour affiner la précision et la fiabilité des modèles. L’outil dispose de plusieurs fonctionnalités conviviales, notamment un éditeur graphique, une prise en charge multi-chatbot et un éditeur de texte enrichi. Cette méthode s’apparente à une version démocratisée et en boucle courte de l’apprentissage dit “par renforcement” (Reinforcement Leaning based on Human Feedback, RLHF). L’accessibilité offerte par un interface utilisateur intuitif ne requierant pas d’expertise particulière, élargit l’éventail potentiel des contributeurs et améliore la qualité des commentaires en luttant contre les biais. AI Chat Feedback permet d’interagir avec plusieurs chatbots différents et de recueillir leurs commentaires en même temps. Ceci est particulièrement utile pour comparer les performances de différents modèles ou tester différentes versions du même modèle. Cela permet aux développeurs d’identifier les domaines à améliorer et d’optimiser leurs modèles plus efficacement.
Cette notion de modèle qui s’améliore lui-même est une voie de développement qui prend de l’ampleur, aussi bien pour les chatbots que pour les algorithmes et, dans un futur proche, pour la conception de composants, la priorisation des requêtes, la gestion des flux de données à l’échelle d’un système complet, etc. Les IA génératives sont particulièrement bien adaptées à la réalisation de ce type de tâches.
Développements futurs de la technologie
Agentivité
Comme évoqué dans nos précédents articles, l’agentivité représente le stade actuel de développement de l’IA et de nouveaux acteurs émergent qui se concentrent spécifiquement sur cette capacité de l’IA. De quoi s’agit-il exactement et quels sont les jalons de son développement ?
Le rôle premier du traitement naturel du langage (Natural Language Processing, NLP) a été de simuler la principale interface de l’intelligence humaine, à savoir la parole. Fonctionnant sur un principe de “prédiction de ce qui suit” ou “prédiction de ce qui manque”, le NLP a fait de l’IA une commodité.
L’agentivité [14] est le principe par lequel un humain ou une IA apprend à agir sur son environnement, une capacité technologique aujourd’hui assez bien maîtrisée. Le principal obstacle, qui fait l’objet d’intenses recherches, est la capacité à planifier, qui nécessite de simuler l’environnement sur la base d’un modèle du monde, à la manière du cortex frontal humain. L’interaction avec l’environnement devient alors très efficace car il n’utilise plus l’itération mais la projection (savoir anticiper l’effet d’une action dans un environnement donné).
Du point de vue de l’utilisateur, la disponibilité d’agents lui permet de ne plus être en interface permanente avec l’IA ou la ligne de prompt. Le prompt permettant de piloter des agents est un prompt de planification, censé décupler les capacités d’automatisation des tâches et successions de tâches, même les plus qualifiées.
Parmi les entreprises positionnées sur l’agentivité, on peut par exemple nommer :
- Microsoft et son modèle Devin, qui a la capacité de créer des jeux et applications ;
- La startup française H centrée sur les modèles utilisés dans l’agentivité, les Large Action Models (LAM) ;
- ou encore les enteprises DigitalKin et Artisan.co dont le modèle de marché est d’automatiser des métiers et proposer à la vente du temps d’employés numériques.
Concernant le développement de produits dédiés à l’agentivité par les leaders du domaine, on pourra notamment mentionner les efforts massifs investis par OpenAI (Q* [15,16,17,18], Strawberry [19]) pour reléguer ChatGPT au rang de première ébauche. L’objectif de ces algorithmes est de donner aux IA des capacités de raisonnement. Si la documentation de ces algorithmes reste relativement énigmatique, on sait cependant qu’ils se différencient par leur capacité à sonder l’internet de manière profonde. La principale capacité mise en avant est la faculté à résoudre des problèmes complexes, tels que les questions scientifiques, sans passer par le fine-tuning. Le premier champ d’application est assez naturellement la recherche en IA et la capacité de l’IA à s’améliorer elle-même (comme discuté ci-dessus).
En septembre 2024, OpenAI a mis à disposition du grand public le chatbot o1, le successeur de ChatGPT et GPT4o, qu’il est possible de voir comme le premier prototype fonctionnel public de Strawberry. o1 démontre des capacités de raisonnement et prend le temps de passer en revue plusieurs “chemins de pensée”, construits sur une recherche plus profonde [20], avant de proposer une réponse à l’utilisateur. o1 est capable d’auto-critique et d’auto-amélioration, mais est également plus lent qu’un chatbot de première génération, tel que ChatGPT (ce qui peut déstabiliser les utilisateurs n’en faisant pas un usage ciblé pour le raisonnement).
Le constat le plus frappant après à peine quelques jours de déploiement est qu’o1 est capable de dépasser les capacités des étudiants en doctorat en mathématiques, biologie et codage informatique. En particulier, à l’image de l’humain, ses capacités sur un problème donné vont s’améliorer avec le temps, ce qui est une toute nouvelle capacité des IA. Ainsi, o1 établit une nouvelle loi de croissance lors de l’inférence et ouvre donc la voie à un nouveau paradigme pour l’IA : améliorer la performance avec le temps, et non plus uniquement avec l’entraînement.
Enfin, de manière inédite, o1 met également à disposition le contenu de ses raisonnements, un type de données d’entraînement souvent indisponible sur les bases internet usuelles. Ce nouveau type de données pourrait être utilisé pour l’entraînement des prochains grands modèles.
Super Intelligence (SSI)
Parmi les autres développements techniques marquants qui se profilent, on peut également mentionner les concepts de “superintelligence” et “superalignement”.
A l’origine de ce concept se trouve le différend exprimé au sein de la direction d’OpenAI en 2023, qui avait vu le départ puis le retour éclair de Sam Altman à sa tête. Celui-ci s’est soldé en particulier par le départ de son directeur scientifique Ilya Sutskever, qui ne partageait pas l’approche commerciale d’Altman, lui préférant une approche qui privilégie la sécurité de l’IA (i.e. l’alignement des objectifs de l’IA avec des objectifs bénéficiant à l’humain).
Avec la création de sa société SSI (Safe Super Intelligence) [21], Sutskever souhaite recentrer les recherches spécifiquement sur ces aspects et veut créer une intelligence qui surpasserait largement celle de l’humain (au-delà de l’IA générale donc, l’AGI), avec des débouchés commerciaux à long terme plutôt qu’immédiats. Le facteur le plus critique pour sa réalisation demeure cependant la disponibilité de puissances de calcul massives. La stratégie de SSI repose notamment sur le fait que les Etats-Unis ont annoncé la création des premiers centres de calcul à 1 Gigawatt (les LLM actuels sont entraînés sur quelques centaines de Mégawatts) avec en ligne de mire le premier cluster 10 Gigawatt (correspondant à la consommation énergétique d’un petit Etat). Plusieurs verrous existent cependant, à commencer par la question énergétique et environnementale (l’argument consistant à dire que la Super Intelligence résoudra ces questions) et la disponibilité des données (problème à résoudre conjointement avec des données synthétiques et l’émergence de modèles de rupture consommant plusieursordres de grandeur de données en moins). Il reste cependant incertain à ce jour que la donnée puisse croître au même rythme que les algorithmes, et il s’agira peut-être là du goulot d’étranglement de l’IA à court ou moyen terme.
Intelligence coopérative (Meta)
Enfin la troisième voix dissidente dans ce paysage des nouveaux paradigmes technologiques de l’IA est celle, relativement isolée mais puissante, de Meta, par la voix de son porte-parole, Yann LeCun. Depuis la publication de son article “A path towards autonomous machine intelligence” en 2022, LeCun promeut l’approche démocratique de l’IA, par le biais notamment de l’open source. Ce point de vue reflète celui de Meta, qui s’extrait ainsi de l’échiquier géopolitique (notamment USA / Chine) et propose une voie de développement alternative, plus subtile, utilisant des modules reproduisant l’intelligence humaine qui fonctionnent ensemble de manière coordonnée et efficace, avec beaucoup moins de données. La première proposition de Meta en ce sens est le projet JEPA [22] et ses deux premiers modèles i-JEPA (image) et v-JEPA (vidéo), qui sont d’autres formes d’IA non génératives et destinés à coopérer ensemble – d’une manière qui fait leur originalité. De la même manière que pour la Super Intelligence, l’IA progresse par des boucles de critique et de re-génération pour produire des “pensées”.
En conclusion, s’il est difficile de suivre le rythme effréné des développements et des annonces, il est possible de dégager des grandes tendances en termes de développements technologiques de l’IA générative et de différentes versions d’une IA plus générale. Si les techniques actuelles se perfectionnent en permanence et ont démontré leur capacité à progresser vers des capacités de “raisonnement” de l’IA – la condition ultime à son adoption globale par le monde de l’entreprise, notamment – il est probable que la recherche en IA connaisse un bond fantastique dans les mois et années à venir, et que plusieurs nouveaux paradigmes émergent, à l’image de la Super Intelligence de SSI ou des machines intelligentes autonomes de Meta. Bien que ce développement repose aussi sur des facteurs matériels non négligeables (comme la puissance de calcul, les composants, ou la disponibilité de la donnée), il est dès à présent possible de se projeter dans des applicatifs qui semblaient jusqu’à présent futuristes. Ce sujet sera l’objet du dernier volet de notre série sur les tendances de l’IA en 2024.
Lire le prochain article de notre série : “Du futurisme au futur proche (4/4)”
Rédactrices :
Emmanuelle Pauliac Vaujour, attachée pour la Science et la Technologie au Consulat général de France à San Francisco, [email protected]
Valentine Asseman, chargée de mission pour la Science et la Technologie, Consulat Général de France à San Francisco, [email protected]
Références :
[1] Sommet pour l’action sur l’IA. | Élysée (elysee.fr)
[2] Flavien Chervet on LinkedIn – IA, chatbots, LLMs
[3] Investigating public perceptions of climate change using ClimateQ&A – Ekimetrics
[4] ClimateQ&A: Bridging the gap between climate scientists and the general public
[5] ClimateQ&A Paltform (climateqa.com)
[6] Une IA générative frugale, la démarche de BNP Paribas – La Revue du Digital
[7] CroissantLLM: A Truly Bilingual French-English Language Model (arxiv.org)
[8] Release v9.8 · ParisNeo/lollms-webui · GitHub
[9] Fine-tuning large language models (LLMs) in 2024 | SuperAnnotate
[10] Power Hungry Processing: Watts Driving the Cost of AI Deployment? (arXiv)
[11] Small Language Models (SLMs). The Rise of Small Language Models… | by Nagesh Mashette | Medium
[12] Everything You Need to Know about Small Language Models (SLM) and its Applications – MarkTechPost
[13] Improve Your Conversational AI with Appen’s Enhanced AI Chat Feedback Tool
[14] Generative Agents: Interactive Simulacra of Human Behavior (arXiv)
[15] Q* and LVM: LLM’s AGI Evolution | by Luhui Hu | Medium | Towards AI | Towards AI
[16] What is Q* and how do we use it? : r/LocalLLaMA (reddit.com)
[17] Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning (arXiv)
[18] LLM Reasoning and the Rise of Q* – by Patrick McGuinness (substack.com)
[19] What is Project Strawberry? OpenAI’s mystery AI tool explained | ZDNET
[20] Learning to Reason with LLMs | OpenAI
[22] Yann LeCun on a vision to make AI systems learn and reason like animals and humans (meta.com)