Repenser le système éducatif à l’aune de l’IA : le point de vue de Sandrine Dudoit, Associate Dean du College of Computing, Data Science, and Society de Berkeley.

septembre 7, 2023

Dans une interview exclusive, Sandrine Dudoit, Associate Dean for Faculty and Research au sein du collège Computing, Data Science, and Society (CDSS) de l'Université de Californie à Berkeley, partage sa vision sur l'avenir de l'éducation et de l'intelligence artificielle (IA), ainsi que les implications sociales et éducatives des nouvelles technologies.

Bonjour Sandrine, pourriez-vous nous présenter votre rôle au sein du nouveau collège Computing, Data Science, and Society (CDSS) à Berkeley ? Quelle est la mission de ce nouveau collège ?

J’occupe aujourd’hui la position d’Associate Dean for Faculty and Research dans le nouveau collège Computing, Data Science, and Society (CDSS) à UC Berkeley. Il s’agit du premier collège créé depuis plus de 50 ans à Berkeley. Mon domaine de recherche réside dans les données à haute dimension (le big data) et l’apprentissage automatique (le machine learning), avec en particulier des applications à la génomique et à la médecine de précision/personnalisée.

Le collège de CDSS a pour objectif de promouvoir la recherche et l’éducation liées aux données, incluant l’analyse de données, les applications et les répercussions sociétales dans des domaines variés comme la médecine, l’aéronautique, le climat, l’économie et la justice sociale. Ce que nous enseignons en CDSS est directement lié aux travaux de recherche de la faculté, et jette les bases théoriques de l’IA générative. En parallèle, nous explorons les diverses dimensions de l’impact de l’IA et des données, notamment sur le plan éthique et juridique. Des travaux à ce sujet ont été réalisés par mes collègues Mike Jordan et Stuart Russell. Ce dernier a récemment témoigné devant le Sénat américain sur la régulation de l’IA, est également à la tête du Kavli Center for Ethics, Science, and the Public, un centre qui réunit des experts de différentes disciplines, dont les lauréats du prix Nobel Jennifer Doudna et Saul Perlmutter.

En quelques chiffres, plus de 1,500 étudiants ont reçu un diplôme de CDSS en mai 2023. La faculté de CDSS, en particulier les départements Electrical Engineering and Computer Sciences (EECS) et Statistics, ont développé l’un des premiers diplômes de formation initiale en data science, qui est classé #1 par U.S. News & World Report et qui a servi de modèle pour la création d’autres cursus dans d’autres universités.

Que pensez-vous de l’interdiction récente de l’utilisation de ChatGPT dans certaines institutions éducatives ? L’UC Berkeley a-t-elle mis en place des mesures pour aider les étudiants et les enseignants à comprendre et à utiliser des outils tels que ChatGPT ?

UC Berkeley n’interdit pas l’utilisation de ChatGPT, et estime que l’accompagnement des enseignants et des étudiants à ce sujet est essentiel. Il n’y a pas de réponse unique à cette question, mais UC Berkeley essaie d’encadrer les pratiques via un guide mis à disposition sur un site web qui explique cette technologie et ses usages pour l’enseignement: Understanding AI Writing Tools and Their Uses for Teaching and Learning at UC Berkeley.

Il serait difficile d’ignorer ou de bloquer ChatGPT, et ce serait même contre-productif. Si on supprime ChatGPT de l’université, on n’équipe pas les étudiants à gérer ces technologies dans leur future carrière ou quotidien. Une de nos missions en tant que professeurs est donc de les éduquer à ce sujet. Le développement rapide des technologies révolutionne la façon dont on appréhende la recherche, le monde du travail, et le quotidien. Il faut préparer les étudiants pour un monde où les données et les technologies telles ChatGPT sont omniprésentes, afin qu’ils exploitent ces outils de façon bénéfique pour la société.

En pratique, je pense qu’il faut commencer par tenter de leur expliquer ChatGPT, sans forcément rentrer dans les détails mathématiques. On peut leur expliquer les grandes lignes et le “scope” des méthodes d’IA générative, leurs applications, et leurs dangers. On peut par exemple engager la discussion en demandant aux étudiants de créer des textes ou images par le biais d’IA génératives, et de commenter les résultats. On peut aussi leur demander comment ils utiliseraient ChatGPT pour répondre à certaines questions.

Étant donné que l’on fait face à des technologies qui évoluent très rapidement, il me semble important d’enseigner des principes généraux pour appréhender ces technologies, plutôt que des méthodes spécifiques. Les méthodes vont devenir obsolètes très rapidement, mais en revanche, les principes seront applicables plus longtemps. Par exemple, plutôt que d’enseigner les détails techniques des algorithmes en IA, il vaut mieux former les étudiants à comprendre le champ d’application de ces méthodes, dans quels contextes elles sont applicables et comment interpréter et vérifier la validité de leurs résultats. La capacité de raisonner avec les données est essentielle; nous faisons face à un véritable problème “d’illettrisme des données”.

L’événement du 22 septembre, “The Future of Skills in a AI era” vise à façonner les bases du modèle éducatif de demain en tenant compte des nouvelles technologies. Quels sont, selon vous, les principaux défis à relever pour concevoir un programme d’études adapté aux exigences changeantes du monde technologique ?

Je n’ai pas de réponse toute faite, car c’est le symposium et les workshops thématiques qui permettront de répondre en partie à ces questions.

L’objectif selon moi est de donner aux étudiants les outils pour appréhender un monde où les données et l’IA sont partout : des outils théoriques, techniques, un domaine d’application, et le contexte sociétal. Ces quatre piliers structurent le diplôme de premier cycle en data science à Berkeley qui permet, en l’occurrence, de comprendre les implications et le contexte sociétal des données et des nouvelles technologies telles que ChatGPT, e.g., en termes d’éthique et de droit; comment utiliser les données et les nouvelles technologies de façon bénéfique pour la société.

Au-delà de la formation académique, la capacité à communiquer avec les données, y compris la visualisation, est très importante. Il faut savoir comment relayer un message exact et précis à partir des données et de l’application de l’IA à ces données. Lorsque l’on a une formation plutôt technique en informatique ou statistique, il faut pouvoir communiquer avec des chercheurs d’autres domaines, mais aussi avec des individus qui n’ont pas la technique ou le jargon scientifique, afin de pouvoir présenter ses travaux et échanger de façon claire. La vulgarisation est importante pour éviter la panique, les amalgames, et les “fake news”. La terminologie “artificial intelligence”, “neural network”, “machine learning”, etc., est intimidante et contribue à l’hyperbole, au buzz, et à la perception qu’on a lorsqu’on fait face à de la magie. Il faut vraiment démystifier tout ça, expliquer ce que c’est : ce sont des algorithmes et des logiciels qui ont été créés par des humains et qui peuvent être dangereux certes, mais il n’y a rien de magique. Mon collègue Mike Jordan, sommité dans l’IA, vient justement de faire une formidable interview de vulgarisation avec l’influenceur JT Parr, dans laquelle il démystifie avec humour et éloquence ChatGPT.

Pensez-vous que ce type de technologie pourrait potentiellement engendrer des disparités éducatives, créant ainsi des écarts entre les établissements capables d’adopter ces technologies et ceux qui ne disposent pas des moyens nécessaires pour le faire ?

Il y a toujours un risque que de nouvelles technologies creusent des écarts entre les universités selon leurs moyens, que ce soit à l’intérieur d’un même pays ou entre pays. En revanche, l’arrivée de l’Internet et des plateformes de collaboration (e.g., GitHub) a aussi été accompagnée par une amplification des initiatives en “science ouverte”, par exemple en logiciels open source (e.g., Python, R) et en open publishing (e.g., PLoS), pour faciliter la dissémination du savoir, l’accès à l’éducation et aux outils de recherche, et la collaboration. C’est un domaine qui me tient à cœur. J’ai cofondé il y a plus de 20 ans le Bioconductor Project, un projet international en open source pour la biomédecine et l’analyse des données -omiques [NdlR : de -omics : sciences ayant pour objectif d’identifier, de décrire et de quantifier les biomolécules et les processus moléculaires qui contribuent à la forme et à la fonction des cellules et des tissus, ex. genomics], avec un axe sur la participation de chercheurs et d’étudiants n’ayant pas forcément les moyens que nous avons dans les grandes universités américaines ou européennes. Je suis ravie de voir qu’il y a de plus en plus de projets de ce type, et CDSS soutient fermement ces initiatives. Par exemple, les principaux cours de data science de Berkeley sont disponibles gratuitement en ligne (e.g., Data 8, Data 100, Stat 20), et donc accessibles aux enseignants et étudiants de par le monde. Le collège de CDSS a également un partenariat avec la Tuskegee University, qui compte parmi les Historically Black Colleges and Universities (HBCU), afin de promouvoir l’accès à l’éducation en data science et, en particulier, comprendre le contexte et les implications des données.

L’idée n’est pas seulement d’enseigner aux étudiants de l’UC Berkeley mais de vraiment soutenir l’enseignement et la recherche au-delà de l’université. Il s’agit d’une université financée par l’État de Californie, ayant une réelle mission de service envers l’État, mais aussi envers le monde.

Enfin, comment envisagez-vous que les avancées technologiques, telles que l’IA générative, puissent être utilisées pour résoudre des problèmes sociétaux urgents, (tels que les défis environnementaux, la santé mondiale ou l’accès à l’éducation) ?

L’utilisation des méthodes telles que l’IA générative pour résoudre les grandes questions sociétales est la mission même de CDSS. Par exemple, le nouveau Bakar Institute of Digitals Materials for the Planet (BIDMaP) est un institut interdisciplinaire qui enseigne l’utilisation de l’IA pour le développement de nouvelles molécules et matériaux pour remédier aux problèmes liés au climat, e.g., conversion de CO2 en carburant propre, création de polymères biodégradables, génération d’eau potable par extraction de l’humidité dans l’air, etc.. Le Center for Computational Biology et Computational Precision Health s’adressent quant à eux aux data science et à l’IA dans le cadre de la biologie et de la médecine.

Rédactrice:

Valentine Asseman, chargée de mission pour la Science et la Technologie, Consulat Général de France à San Francisco, [email protected]