Large Language Model (LLM) : open source et open competition

Yann LeCun le 13 octobre 2023 dans l'auditorium de La Maison Française à l’Ambassade de France aux Etats-Unis dans le cadre du Forum Amérique du Nord des Conseillers du Commerce Extérieur et de la communauté économique française.

Le discours de plus en plus répandu consistant à interpeller sur l’impact négatif potentiel du développement de modèles géants de langage (LLMs) propriétaires ne semble pas ralentir la course aux investissements dans ce domaine. Plus précisément, on assiste de manière répétitive à des investissements massifs de la part des géants de la tech dans des startups d’Intelligence Artificielle (IA) générative, ce qui pose la question du business model de ces derniers, ainsi que de la place de l’Open Source dans l’explosion de l’IA. Un modèle dont le scientifique français Yann LeCun, vice-président en charge de l’IA chez Meta, est un fervent défenseur.

 

Lundi 25 septembre 2023, Amazon annonçait un investissement de 4 milliards de dollars dans la startup Anthropic [1], développeuse de solutions d’intelligence artificielle (IA) générative – à l’image de son robot conversationnel Claude – à base de Large Language Models (LLMs). Concrètement, il s’agit d’un premier investissement de 1,25 milliards de dollars avec la possibilité d’investir plus tard 2,75 milliards supplémentaires. Si cet achat signe l’entrée dans la course aux investissements majeurs en IA d’Amazon, l’entreprise reste toutefois en position minoritaire dans la startup qui est par ailleurs toujours liée à Google (qui y a, par ailleurs, investi en mai dernier 450 millions de dollars). L’accord entre les deux sociétés permettra aux utilisateurs du Cloud d’Amazon et aux employés de l’entreprise d’avoir un accès privilégié aux systèmes d’IA que conçoit Anthropic, et notamment ses modèles de langage. Inversement, Amazon va permettre à Anthropic de pouvoir s’appuyer sur la puissance de calcul de ses serveurs, afin d’entraîner ses modèles [2].

 

Cet investissement massif d’une société GAFAM (Google, Amazon, Facebook, Apple, Microsoft) dans une start-up d’IA générative – avec comme système de compensation la mise à disposition de puissance de calcul massive – est loin d’être une première. De 2019 à 2022, Microsoft a investi plus d’une dizaine de milliards de dollars dans OpenAI, la startup à l’origine de ChatGPT. Les produits Microsoft intègrent des produits d’Open AI progressivement depuis. 

 

D’autres géants ont choisi une stratégie différente, à l’image de Google et Meta, qui développent depuis plus d’une décennie en interne leurs propres LLMs. Le FAIR (Fundamental Artificial Intelligence Research chez Meta AI, originellement Facebook Artificial Intelligence Research), laboratoire de recherche en IA dirigé par le français Yann LeCun, développe de nombreux produits autour de l’IA et notamment de l’IA générative (LLaMA, Galactica, OPT) pour Meta. De même, Google a développé son modèle de langage BERT et lancé son robot conversationnel BARD début 2023 [3]. 

 

Dans cette course à l’IA générative on voit se dessiner deux grandes tendances, l’une qui tend vers des modèles propriétaires, l’autre vers des modèles publics, dits Open Source. Interrogé sur la meilleure stratégie à adopter lors d’une conférence donnée en octobre à l’Ambassade de France à Washington, Yann LeCun met en avant qu’une division du même genre avait lieu au début de l’internet et qu’à l’époque, les approches open source avaient triomphé [4].

 

S’il est facile d’imaginer  le business model associé à un système d’IA propriétaire, le modèle de financement de l’Open Source est, lui, plus indirect, malgré des investissements tout aussi conséquents. 

 

L’un des grands avantages de l’Open Source est la diffusion technologique, c’est-à-dire le fait d’imposer sa technologie comme un standard que tout le monde utilise. Une fois que la société a développé un produit largement utilisé, deux options s’offrent à elle pour le monétiser : offrir des services supplémentaires ou des applications payantes qui se basent sur le coeur  Open Source (modèle Open Core), ou bien monétiser – à travers la publicité notamment – la quantité importante de données utilisateurs collectées par le biais de ses produits et services. 

 

Un autre atout technologique important de l’Open Source est de permettre aux sociétés de bénéficier des améliorations de codes provenant de la communauté  de développeurs indépendants. Les entreprises ont ainsi accès à un vivier illimité de nouvelles créations et applications de l’IA générative. Ce choix stratégique permet aussi d’accéder à de la main d’œuvre issue de cette communauté, et donc déjà qualifiée et formée à ces outils de programmation (comme TensorFlow – Google – ou PyTorch – Meta – par exemple dans le domaine des réseaux de neurones).

 

Enfin, en sa qualité de grand penseur de l’ère de l’IA, Yann Le Cun rappelle que la culture Open Source est la culture traditionnelle de la Silicon Valley, et ce qui a toujours fait son succès. Il invite à ne pas se détourner de ce système qui a fait ses preuves en termes de capacité à faire émerger les nouvelles technologies transformatives de notre société numérique. 

 

En conclusion, l’histoire pourrait – ou non – être amenée à se répéter, et la question de savoir quelle stratégie adoptée par les GAFAM pour ce qui concerne leur modèles de langages s’avèrera payante – dans l’idéal pour les entreprises comme pour la société –  reste ouverte. En ce qui concerne Meta, Yann LeCun indiquait vouloir proposer des plateformes dont l’objectif est en premier lieu de connecter tout un chacun à l’échelle du monde, sur un schéma financé par la publicité et la collecte de données. Des stratégies et un débat qui semblent destinés à osciller encore pour un certain temps, tant la compétition reste forte et le paysage des acteurs de l’IA mouvant – une configuration inédite pour les GAFAM qui se voient disputer un leadership qui leur était jusqu’alors acquis.


Références:


[1] https://www.anthropic.com/index/anthropic-amazon 

[2] https://www.nytimes.com/2023/09/25/technology/amazon-anthropic-ai-deal.html 

[3] https://en.wikipedia.org/wiki/Large_language_model 

[4] https://www.ft.com/content/30fa44a1-7623-499f-93b0-81e26e22f2a6 


Tableau comparatif des caractéristiques de quelques modèles de langage connus (issu de [3]): 

Modèle Année Société Taille du modèle (milliards de paramètres) Licence des modèles pré-entrainés Description
BERT 2018 Google 0,34  Open Source

Apache 2.0

Un modèle de langage ancien et influent, mais uniquement encodeur et donc non conçu pour être prompté ou génératif
GPT-J 2021 EleutherAI Open Source

Apache 2.0

Modèle de langage de style GPT-3
GPT-NeoX 2022 EleutherAI 20  Open Source

Apache 2.0

basé sur l’architecture Megatron
YaLM 100B 2022 Yandex 100  Open Source

Apache 2.0

Modèle anglo-russe basé sur le Megatron-LM de Microsoft.
Cerebras-GPT 2023 Cerebras 13  Open Source

Apache 2.0

Entraîné sur la formule Chinchilla.
Falcon 2023 Technology Innovation Institute 40  Open Source

Apache 2.0

OpenAssistant 2023 LAION 17  Open Source

Apache 2.0

Entraîné avec des données ouvertes participatives
Mistral 7B 2023 Mistral 7.3  Open Source

Apache 2.0

GPT-2 2019 OpenAI 1.5  Open Source

MIT

modèle à usage général basé sur une architecture de transformateur
GPT-Neo 2021 EleutherAI 2.7  Open Source

MIT

Le premier d’une série d’alternatives gratuites à GPT-3 publiées par EleutherAI
BLOOM 2022 Consortium mené par Hugging Face 175  Open Source

Responsible AI

Essentiellement GPT-3 mais formé sur un corpus multilingue 
Claude 2021 Anthropic 52  Sous licence mais partiellement ouvert Entraîné pour la conversation
Galactica 2022 Meta 120  Sous licence mais partiellement ouvert Entraîné pour les textes et modalités scientifiques.
Falcon 180B 2023 Technology Innovation Institute 180  Sous licence mais partiellement ouvert
OPT 

(Open Pretrained Transformer)

2022 Meta 175  Sous licence mais partiellement ouvert Architecture GPT-3 avec quelques adaptations de Megatron
LLaMA  2023 Meta 65  Sous licence mais partiellement ouvert Entraîné sur un large corpus de 20 langues pour viser de meilleures performances avec moins de paramètres. Des chercheurs de l’Université de Stanford ont formé un modèle affiné basé sur les poids LLaMA, appelé Alpaca.
LLaMA 2 2023 Meta 70  Sous licence mais partiellement ouvert Successeur de LLaMA.
AlexaTM 

(Teacher Models)

2022 Amazon 20  Propriétaire architecture séquence-à-séquence bidirectionnelle
GPT-3 2020 OpenAI 175  Propriétaire Une variante affinée de GPT-3, appelée GPT-3.5, a été mise à la disposition du public via une interface Web appelée ChatGPT en 2022.
GPT-4 2023 OpenAI inconnue Propriétaire Disponible pour les utilisateurs de ChatGPT Plus et utilisé dans plusieurs produits.
Ernie 3.0 Titan 2021 Baidu 260  Propriétaire LLM en langue chinoise. Ernie Bot est basé sur ce modèle.
GLaM 

(Generalist Language Model)

2021 Google 1200  Propriétaire Mélange de modèle experts, ce qui rend la formation plus coûteuse mais l’inférence moins coûteuse à éxécuter par rapport à GPT-3.
Gopher 2021 DeepMind 280  Propriétaire
LaMDA 

(for Dialog Applications)

2022 Google 137  Propriétaire Spécialisé pour la génération de réponses dans les conversations.
Chinchilla 2022 DeepMind 70  Propriétaire Modèle à paramètres réduits entraîné sur plus de données. Utilisé dans le robot Sparrow.
PaLM (Pathways Language Model) 2022 Google 540  Propriétaire visait à atteindre les limites pratiques de l’échelle du modèle
PaLM 2 2023 Google 340  Propriétaire Utilisé dans le chatbot Bard
Minerva 2022 Google 540  Propriétaire LLM formé pour résoudre « des questions mathématiques et scientifiques en utilisant un raisonnement étape par étape ». Minerva est basé sur le modèle PaLM, entraîné sur des données mathématiques et scientifiques.
BloombergGPT 2023 Bloomberg L.P. 50  Propriétaire LLM entraîné sur des données financières provenant de sources propriétaires, qui « surpassent les modèles existants sur les tâches financières avec des marges significatives sans sacrifier les performances par rapport aux LLM de référence »
PanGu-Σ 2023 Huawei 1085  Propriétaire
Jurassic-2 2023 AI21 Labs inconnue Propriétaire Multilingue
Megatron-Turing NLG 2021 Microsoft et Nvidia 530  Accès web restreint Architecture standard mais formée sur un cluster de calcul intensif.

Rédacteurs : 


Arthur Manceau, stagiaire du Service pour la Science et la Technologie, Ambassade de France à Washington D.C., [email protected] 


Valentine Asseman, chargée de mission pour la Science et la Technologie, Consulat Général de France de San Francisco, [email protected] 


Emmanuelle Pauliac-Vaujour, chargée de mission pour la Science et la Technologie, Consulat Général de France de San Francisco, [email protected] 


		

Partager