Le discours de plus en plus répandu consistant à interpeller sur l’impact négatif potentiel du développement de modèles géants de langage (LLMs) propriétaires ne semble pas ralentir la course aux investissements dans ce domaine. Plus précisément, on assiste de manière répétitive à des investissements massifs de la part des géants de la tech dans des startups d’Intelligence Artificielle (IA) générative, ce qui pose la question du business model de ces derniers, ainsi que de la place de l’Open Source dans l’explosion de l’IA. Un modèle dont le scientifique français Yann LeCun, vice-président en charge de l’IA chez Meta, est un fervent défenseur.
Lundi 25 septembre 2023, Amazon annonçait un investissement de 4 milliards de dollars dans la startup Anthropic [1], développeuse de solutions d’intelligence artificielle (IA) générative – à l’image de son robot conversationnel Claude – à base de Large Language Models (LLMs). Concrètement, il s’agit d’un premier investissement de 1,25 milliards de dollars avec la possibilité d’investir plus tard 2,75 milliards supplémentaires. Si cet achat signe l’entrée dans la course aux investissements majeurs en IA d’Amazon, l’entreprise reste toutefois en position minoritaire dans la startup qui est par ailleurs toujours liée à Google (qui y a, par ailleurs, investi en mai dernier 450 millions de dollars). L’accord entre les deux sociétés permettra aux utilisateurs du Cloud d’Amazon et aux employés de l’entreprise d’avoir un accès privilégié aux systèmes d’IA que conçoit Anthropic, et notamment ses modèles de langage. Inversement, Amazon va permettre à Anthropic de pouvoir s’appuyer sur la puissance de calcul de ses serveurs, afin d’entraîner ses modèles [2].
Cet investissement massif d’une société GAFAM (Google, Amazon, Facebook, Apple, Microsoft) dans une start-up d’IA générative – avec comme système de compensation la mise à disposition de puissance de calcul massive – est loin d’être une première. De 2019 à 2022, Microsoft a investi plus d’une dizaine de milliards de dollars dans OpenAI, la startup à l’origine de ChatGPT. Les produits Microsoft intègrent des produits d’Open AI progressivement depuis.
D’autres géants ont choisi une stratégie différente, à l’image de Google et Meta, qui développent depuis plus d’une décennie en interne leurs propres LLMs. Le FAIR (Fundamental Artificial Intelligence Research chez Meta AI, originellement Facebook Artificial Intelligence Research), laboratoire de recherche en IA dirigé par le français Yann LeCun, développe de nombreux produits autour de l’IA et notamment de l’IA générative (LLaMA, Galactica, OPT) pour Meta. De même, Google a développé son modèle de langage BERT et lancé son robot conversationnel BARD début 2023 [3].
Dans cette course à l’IA générative on voit se dessiner deux grandes tendances, l’une qui tend vers des modèles propriétaires, l’autre vers des modèles publics, dits Open Source. Interrogé sur la meilleure stratégie à adopter lors d’une conférence donnée en octobre à l’Ambassade de France à Washington, Yann LeCun met en avant qu’une division du même genre avait lieu au début de l’internet et qu’à l’époque, les approches open source avaient triomphé [4].
S’il est facile d’imaginer le business model associé à un système d’IA propriétaire, le modèle de financement de l’Open Source est, lui, plus indirect, malgré des investissements tout aussi conséquents.
L’un des grands avantages de l’Open Source est la diffusion technologique, c’est-à-dire le fait d’imposer sa technologie comme un standard que tout le monde utilise. Une fois que la société a développé un produit largement utilisé, deux options s’offrent à elle pour le monétiser : offrir des services supplémentaires ou des applications payantes qui se basent sur le coeur Open Source (modèle Open Core), ou bien monétiser – à travers la publicité notamment – la quantité importante de données utilisateurs collectées par le biais de ses produits et services.
Un autre atout technologique important de l’Open Source est de permettre aux sociétés de bénéficier des améliorations de codes provenant de la communauté de développeurs indépendants. Les entreprises ont ainsi accès à un vivier illimité de nouvelles créations et applications de l’IA générative. Ce choix stratégique permet aussi d’accéder à de la main d’œuvre issue de cette communauté, et donc déjà qualifiée et formée à ces outils de programmation (comme TensorFlow – Google – ou PyTorch – Meta – par exemple dans le domaine des réseaux de neurones).
Enfin, en sa qualité de grand penseur de l’ère de l’IA, Yann Le Cun rappelle que la culture Open Source est la culture traditionnelle de la Silicon Valley, et ce qui a toujours fait son succès. Il invite à ne pas se détourner de ce système qui a fait ses preuves en termes de capacité à faire émerger les nouvelles technologies transformatives de notre société numérique.
En conclusion, l’histoire pourrait – ou non – être amenée à se répéter, et la question de savoir quelle stratégie adoptée par les GAFAM pour ce qui concerne leur modèles de langages s’avèrera payante – dans l’idéal pour les entreprises comme pour la société – reste ouverte. En ce qui concerne Meta, Yann LeCun indiquait vouloir proposer des plateformes dont l’objectif est en premier lieu de connecter tout un chacun à l’échelle du monde, sur un schéma financé par la publicité et la collecte de données. Des stratégies et un débat qui semblent destinés à osciller encore pour un certain temps, tant la compétition reste forte et le paysage des acteurs de l’IA mouvant – une configuration inédite pour les GAFAM qui se voient disputer un leadership qui leur était jusqu’alors acquis.
Références:
[1] https://www.anthropic.com/index/anthropic-amazon
[2] https://www.nytimes.com/2023/09/25/technology/amazon-anthropic-ai-deal.html
[3] https://en.wikipedia.org/wiki/Large_language_model
[4] https://www.ft.com/content/30fa44a1-7623-499f-93b0-81e26e22f2a6
Tableau comparatif des caractéristiques de quelques modèles de langage connus (issu de [3]):
Modèle | Année | Société | Taille du modèle (milliards de paramètres) | Licence des modèles pré-entrainés | Description |
BERT | 2018 | 0,34 | Open Source
Apache 2.0 |
Un modèle de langage ancien et influent, mais uniquement encodeur et donc non conçu pour être prompté ou génératif | |
GPT-J | 2021 | EleutherAI | 6 | Open Source
Apache 2.0 |
Modèle de langage de style GPT-3 |
GPT-NeoX | 2022 | EleutherAI | 20 | Open Source
Apache 2.0 |
basé sur l’architecture Megatron |
YaLM 100B | 2022 | Yandex | 100 | Open Source
Apache 2.0 |
Modèle anglo-russe basé sur le Megatron-LM de Microsoft. |
Cerebras-GPT | 2023 | Cerebras | 13 | Open Source
Apache 2.0 |
Entraîné sur la formule Chinchilla. |
Falcon | 2023 | Technology Innovation Institute | 40 | Open Source
Apache 2.0 |
|
OpenAssistant | 2023 | LAION | 17 | Open Source
Apache 2.0 |
Entraîné avec des données ouvertes participatives |
Mistral 7B | 2023 | Mistral | 7.3 | Open Source
Apache 2.0 |
|
GPT-2 | 2019 | OpenAI | 1.5 | Open Source
MIT |
modèle à usage général basé sur une architecture de transformateur |
GPT-Neo | 2021 | EleutherAI | 2.7 | Open Source
MIT |
Le premier d’une série d’alternatives gratuites à GPT-3 publiées par EleutherAI |
BLOOM | 2022 | Consortium mené par Hugging Face | 175 | Open Source
Responsible AI |
Essentiellement GPT-3 mais formé sur un corpus multilingue |
Claude | 2021 | Anthropic | 52 | Sous licence mais partiellement ouvert | Entraîné pour la conversation |
Galactica | 2022 | Meta | 120 | Sous licence mais partiellement ouvert | Entraîné pour les textes et modalités scientifiques. |
Falcon 180B | 2023 | Technology Innovation Institute | 180 | Sous licence mais partiellement ouvert | |
OPT
(Open Pretrained Transformer) |
2022 | Meta | 175 | Sous licence mais partiellement ouvert | Architecture GPT-3 avec quelques adaptations de Megatron |
LLaMA | 2023 | Meta | 65 | Sous licence mais partiellement ouvert | Entraîné sur un large corpus de 20 langues pour viser de meilleures performances avec moins de paramètres. Des chercheurs de l’Université de Stanford ont formé un modèle affiné basé sur les poids LLaMA, appelé Alpaca. |
LLaMA 2 | 2023 | Meta | 70 | Sous licence mais partiellement ouvert | Successeur de LLaMA. |
AlexaTM
(Teacher Models) |
2022 | Amazon | 20 | Propriétaire | architecture séquence-à-séquence bidirectionnelle |
GPT-3 | 2020 | OpenAI | 175 | Propriétaire | Une variante affinée de GPT-3, appelée GPT-3.5, a été mise à la disposition du public via une interface Web appelée ChatGPT en 2022. |
GPT-4 | 2023 | OpenAI | inconnue | Propriétaire | Disponible pour les utilisateurs de ChatGPT Plus et utilisé dans plusieurs produits. |
Ernie 3.0 Titan | 2021 | Baidu | 260 | Propriétaire | LLM en langue chinoise. Ernie Bot est basé sur ce modèle. |
GLaM
(Generalist Language Model) |
2021 | 1200 | Propriétaire | Mélange de modèle experts, ce qui rend la formation plus coûteuse mais l’inférence moins coûteuse à éxécuter par rapport à GPT-3. | |
Gopher | 2021 | DeepMind | 280 | Propriétaire | |
LaMDA
(for Dialog Applications) |
2022 | 137 | Propriétaire | Spécialisé pour la génération de réponses dans les conversations. | |
Chinchilla | 2022 | DeepMind | 70 | Propriétaire | Modèle à paramètres réduits entraîné sur plus de données. Utilisé dans le robot Sparrow. |
PaLM (Pathways Language Model) | 2022 | 540 | Propriétaire | visait à atteindre les limites pratiques de l’échelle du modèle | |
PaLM 2 | 2023 | 340 | Propriétaire | Utilisé dans le chatbot Bard | |
Minerva | 2022 | 540 | Propriétaire | LLM formé pour résoudre « des questions mathématiques et scientifiques en utilisant un raisonnement étape par étape ». Minerva est basé sur le modèle PaLM, entraîné sur des données mathématiques et scientifiques. | |
BloombergGPT | 2023 | Bloomberg L.P. | 50 | Propriétaire | LLM entraîné sur des données financières provenant de sources propriétaires, qui « surpassent les modèles existants sur les tâches financières avec des marges significatives sans sacrifier les performances par rapport aux LLM de référence » |
PanGu-Σ | 2023 | Huawei | 1085 | Propriétaire | |
Jurassic-2 | 2023 | AI21 Labs | inconnue | Propriétaire | Multilingue |
Megatron-Turing NLG | 2021 | Microsoft et Nvidia | 530 | Accès web restreint | Architecture standard mais formée sur un cluster de calcul intensif. |
Rédacteurs :
Arthur Manceau, stagiaire du Service pour la Science et la Technologie, Ambassade de France à Washington D.C., [email protected]
Valentine Asseman, chargée de mission pour la Science et la Technologie, Consulat Général de France de San Francisco, [email protected]
Emmanuelle Pauliac-Vaujour, chargée de mission pour la Science et la Technologie, Consulat Général de France de San Francisco, [email protected]