L’accès aux données : une limitation majeure des algorithmes d’IA
Comme le dit Cédric Villani dans son rapport « donner un sens à l’apprentissage artificiel »[1], les données sont le « carburant » de l’économie numérique et leur accès est donc primordial à son développement. C’est particulièrement vrai en ce qui concerne les algorithmes d’Intelligence Artificielle (IA). Aujourd’hui, l’approche traditionnelle pour entraîner des modèles d’IA consiste à rassembler toutes les données nécessaires en un seul endroit (souvent dans le cloud) puis à entraîner le modèle sur ces données. Mais cette approche n’est pas possible pour une grande partie des données mondiales potentiellement exploitables pour des algorithmes d’IA qui, pour des raisons de confidentialité et de sécurité, ne peuvent être déplacées vers un dépôt central de données. Citons ainsi la récente décision de la Cour de justice de l’Union européenne qui a déclaré invalide le cadre américano-européen Privacy Shield et a de ce fait privé les entreprises américaines d’un mécanisme utile de conformité au RGPD, et rend quasi-impossible le transfert de données personnelles d’utilisateurs européens vers les États-Unis. Notons cependant que, même en l’absence de problèmes légaux ou de sécurité, des organismes peuvent être réticents à fournir des données qui sont leur propriété et potentiellement une source de valeur qu’elles souhaitent conserver.
Le « federated learning» : un paradigme d’apprentissage au potentiel très important
Le « federated learning » (ou apprentissage fédéré) renverse l’approche conventionnelle de l’apprentissage automatique. Plutôt que d’entraîner un modèle sur un ensemble de données localisées en un même endroit, le federated learning entraîne un modèle sur des données décentralisées, qui peuvent être réparties sur de nombreux (potentiellement des dizaines de millions) appareils (téléphones mobiles par exemple) et serveurs. Une copie du modèle est envoyée à chaque appareil et entraînée localement sur la base des données qui s’y trouvent. Les paramètres du modèle qui en résultent (mais pas les données de formation elles-mêmes) sont par la suite renvoyés vers un modèle global qui se situe sur un serveur centralisé.
Les avantages du federated learning sont importants : les données peuvent être exploitées pour entraîner des modèles algorithmiques sans avoir à les sortir de leur silo, ce qui permet de résoudre les problèmes de sécurité et de confidentialité qui sont de plus en plus sur le devant de la scène. De plus, le modèle peut être personnalisé pour l’appareil de l’utilisateur : le modèle final pourra être adapté sur chaque appareil pour mieux correspondre à ses données locales. Il existe aussi un avantage en matière d’économie d’énergie, et donc d’écologie, car transmettre les paramètres des modèles consomme moins d’énergie que de transmettre les données. Enfin, des avantages sont attendus en matière d’équité et de lutte contre les biais statistiques, du fait qu’un plus grand nombre de données très diverses et représentatives de la société peuvent être potentiellement utilisées.
Des activités de recherche du federated learning très nourries aux Etats-Unis
Une analyse bibliographique de la recherche sur le federated learning montre d’une part une forte hausse du nombre de publications scientifiques sur le sujet depuis 2015 (Figure 1), et d’autre part que les institutions qui publient le plus sont majoritairement aux États-Unis, principalement via les entreprises privées, et en Chine (Tableau 1).
Figure 1 : Nombre total de publications scientifiques dans le monde entier concernant le federated learning
Institution | Nombre total de publications |
Nanyang Technological University | 45 |
41 | |
Hong Kong University of Science and Technology | 38 |
IBM | 32 |
Carnegie Mellon University | 31 |
Tableau 1 :Top 5 des institutions publiant le plus de publications scientifiques sur le thème du federated learning.
Cette analyse bibliométrique a été fait à partir de la base de données Lens.org en prenant comme critère : Field of Study = « Computer Science » et Abstract contient « federated learning ».
Le tableau 1 montre que l’institution américaine la plus active n’est pas une université mais est Google. Google a en effet été un des premiers à faire de la recherche dans le domaine et à l’implémenter à l’échelle, avec en particulier Gboard, application de Google Keyboard qui permet de prédire le mot suivant lorsqu’un utilisateur utilise son clavier : aspirer tous les mots tapés par les utilisateurs sur un serveur centrale ne serait pas acceptable, et Google l’a effectué par federated learning. Le federated learning est également utilisé sur certains smartphones pour faire la sélection de la meilleure prise parmi un groupe de photos d’une scène donnée. Cette analyse bibliographique laisse présager une forte compétition scientifique et technologique entre les Etats-Unis et la Chine, à l’instar de ce qu’on peut observer dans d’autres domaines technologiques à forts enjeux.
Applications potentielles et pistes de recherche actives en matière de federated learning
Au-delà des modèles de langages, l’application du federated learning aux smartphones pourrait être utilement étendu à d’autres cas d’usage tels que la reconnaissance de la parole où de visage, permettant d’apprendre des modèles entrainés localement sur le smartphone à partir des données qui y sont présentes, donc fortement personnalisés. L’application aux objets connectés semble aussi avoir de l’avenir : voitures connectées entraînées spécifiquement à partir du trafic routier local, appareils domotiques personnalisés sur la base des habitudes des habitants, etc.
Plus récemment, la santé est apparue comme un domaine particulièrement prometteur pour l’application de l’apprentissage fédéré. Les raisons en sont multiples. D’une part, il existe un nombre considérable de cas d’utilisation de l’IA dans le domaine de la santé : citons comme exemple l’innovation pharmacologique ou l’aide au diagnostic médical. D’autre part, les données relatives à la santé, en particulier les informations personnelles des patients, sont extrêmement sensibles ; un ensemble de réglementations comme la HIPAA restreint leur utilisation et leur circulation. L’apprentissage fédéré pourrait permettre aux chercheurs de développer des outils d’IA appliqués à la santé sans jamais déplacer les dossiers médicaux sensibles de leur source ou les exposer à des violations de la vie privée. On peut en effet imaginer qu’un plus grand partage des données médicales relatives à la crise de COVID-19 aurait permis une meilleure aide des outils d’IA dans la lutte contre la pandémie. Notons qu’Owkin, startup basée à New-York, permet déjà de mettre en œuvre des techniques de federated learning exploitant les données de plusieurs hôpitaux à des fins de découverte de nouveaux traitements (en particulier contre le cancer).
Les axes de recherche en matière de federated learning sont très nombreux et nous ne mentionnons ici brièvement que quelques domaines particulièrement actifs, sans prétendre à l’exhaustivité.
Tout d’abord, beaucoup de recherches explorent comment optimiser la qualité globale du modèle estimé tout en minimisant les communications, souvent lentes et coûteuses, en envoyant des mises à jours de paramètres les plus concises, compressées, et avec la fréquence la plus faible possible.
Un autre domaine de recherche très dynamique est l’amélioration de la robustesse des techniques de federated learning, afin de prendre en compte le fait que les différents appareils connectés ne sont potentiellement pas fiables, pas nécessairement tous actifs au même moment, qu’ils peuvent tomber en panne au bout milieu d’un processus d’apprentissage, voire même qu’un appareil peut volontairement tenter d’empoisonner le modèle entraîné en envoyant des données de mauvaise qualité ou frauduleuses.
Enfin, un axe de recherche crucial est celui qui concerne le sujet de la confidentialité des données. De par sa nature très décentralisée, il est clair que le federated learning constitue un pas en avant à cet égard. Des mécanismes ont été développés pour que le serveur central ne soit pas en mesure de reconstruire les données d’origine à partir des paramètres qui lui sont envoyés, elles consistent à s’assurer que les paramètres remontés au serveur central sont cryptés, potentiellement bruités, et qu’il n’a accès à des paramètres non-cryptés qu’à partir du moment où ils ont été fusionnés avec d’autres paramètres. Des log à base de blockchain ont été également proposées pour chercher à rendre le processus complet auditable. Ces méthodes visant à préserver la confidentialité des données seront essentielles en particulier pour obtenir des agréments en matière de respect du RGPD en Europe afin que le federated learning puisse traiter des données personnelles. Il est cependant peu probable que des méthodes puissent prouver scientifiquement que la confidentialité des données est préservée. Une approche pragmatique basée au cas par cas montrant que les données présentes dans les appareils décentralisés ne peuvent pas être reconstruites au-delà du doute raisonnable semble plus probable.
Rédacteur:
Jean-Baptiste Bordes, attaché pour la science et la technologie à San Francisco. attache-stic.sf at ambascience-usa.org
Références:
1. https://www.enseignementsup-recherche.gouv.fr/cid128577/rapport-de-cedric-villani-donner-un-sens-a-l-intelligence-artificielle-ia.html
2. https://www.lens.org/
3. https://owkin.com/
4. https://arxiv.org/abs/1908.07873