Via l’OSTP, la maison blanche coordonne une initiative public-privé de grande envergure pour l’analyse de la littérature scientifique. Ce consortium regroupait initialement : la National Library of Medicine (NLM), la plus grande bibliothèque médicale du monde, le Allen Institute for AI, un institut de recherche indépendant à but non lucratif, la Chan Zuckerberg Initiative (CZI), qui se définit comme « entreprise philanthropique » visant à apporter des solutions technologique à la société, le Center for Security and Emerging Technology (CSET) de Georgetown University et Microsoft Research. De nouveaux partenaires ont rejoint cette initiative : bioRxiv, medRxiv, Amazon Web Services (AWS) et tout récemment IBM Research .
Dans ce contexte de pandémie, l’OSTP a identifié dix questions prioritaires émanant de l’OMS et du comité sur les maladies infectieuses émergentes et les menaces sanitaires du 21ième siècle de l’académie des sciences (National Academies of Sciences, Engineering, and Medicine).
Le consortium met à la disposition des analystes de données un corpus traitant du COVID-19 et des coronavirus (dont SARS, MERS, etc.) publiés dans les bases de données PubMed, bioRxiv, ou medRxiv notamment. Initialement constitué de 29 000 articles (et 44 000 méta-données), le corpus est actuellement composé de plus de 36 000 publications en texte intégral (avec plusieurs sites miroirs dont au MIT) et près de 50 000 composés candidats antiviraux.
Ce corpus – dont le nombre d’articles ne cesse de croître – est disponible sur la plateforme web organisant des compétitions en science des données : Kaggle (Alphabet/Google) dans un format (JSON) déjà accessible pour les algorithmes. Le Allen Institute for AI vient d’annoncer la contribution d’IBM Research permettant de rendre les tableaux de données au format pdf accessibles aux algorithmes.
Rédacteur :
Renaud Seigneuric, Attaché pour la Science et la Technologie, [email protected]