EL PAÍS

La fragilité des informations scientifiques dans la situation actuelle incertaine

Dans un contexte international instable, le retrait des informations sur la santé publique par les Centers for the Control and Prevention of US Diseases (CDC) ou la récente chute des serveurs du National Institute of Health (NIH), sans explication claire, peut ne pas surprendre, mais ce sont des faits graves qui semblent indiquer un changement drastique dans les données de l'écosystème et nous conduisons à la façon dont les informations biologiques et médicales sont organisées. Cette situation inquiétante ne se limite pas à ce domaine. Dans la zone climatique, par exemple, les récentes licenciements dans les agences américaines dédiées à la surveillance du changement climatique ont mis en évidence la façon dont les systèmes centralisés dépendent des informations cruciales de risque dans les domaines qui proviennent de l'étude de la météo, la préparation de nouvelles pandémies ou les progrès dans le traitement des maladies.

En biologie et biomédecine, les connaissances accumulées pendant des décennies sont contenues dans des centaines de milliers de publications, de bases de données et de référentiels spécialisés. Le CDC, par exemple, abrite des informations critiques sur la surveillance des maladies, les taux de vaccination, les épidémies épidémiologiques et les directives de santé publique, y compris les données de santé des femmes et les inégalités dans l'accès à la santé. Pendant la pandémie Covid-19, les données fournies par les CDC étaient essentielles pour suivre la propagation du virus et guider les politiques de santé.

Pour sa part, PMC / PubMed, produit par la National Library of Medicine (NLM) de l'American Health Institute (NIH), stocke des résumés et des publications scientifiques indispensables pour planifier et interpréter de nouvelles expériences. Cependant, ces ressources uniques, produites par les institutions gouvernementales, sont vulnérables aux interventions politiques, comme nous l'avons vu récemment.

Un modèle alternatif est proposé par des bases de données organisées autour des collaborations internationales. Uniprot est une base de données globale qui collecte et organise les informations sur les protéines, les molécules qui remplissent la plupart des fonctions de notre corps, de la digestion de la nourriture aux infections à combattre. D'un autre côté, PDB (Protein Data Bank) est spécialisée dans le stockage des structures à trois dimensions de ces protéines, ce qui permet aux scientifiques de visualiser comment ils fonctionnent au niveau moléculaire. Des informations dans ces bases de données sont essentielles pour développer de nouveaux médicaments, tels que les vaccins ou les traitements contre le cancer, et même pour concevoir des protéines qui résolvent des problèmes de stockage, tels que la décomposition en plastique

Ces bases de données ne sont pas seulement fondamentales pour les progrès scientifiques dans de nombreuses dimensions, notamment en étant déterminant pour le développement de systèmes d'intelligence artificielle en biologie et en médecine. Par exemple, les systèmes d'IA qui ont remporté le prix Nobel en chimie en 2024 – en prédisent précisément la structure des protéines et comment les modifier – ils ont été formés à l'aide d'informations ouvertes et gratuites fournies par UniProt et PDB. Sans ces données, des progrès comme celui-ci n'auraient pas été possibles.

Un exemple plus proche est l'archive européenne du génome-phénome (EGA), une base de données essentielle dans le monde qui stocke des informations sur les génomes humains – l'ensemble complet de gènes qui définissent nos caractéristiques biologiques. Par exemple, l'EGA contient des données dérivées de l'étude de milliers de cas de cancer, permettant aux chercheurs d'identifier les mutations génétiques associées à cette maladie. Cette base de données est gérée en collaboration par le Genomic Regulation Center (CRG) et le European Molecular Biology Laboratory (EMBL-EBI), avec des données stockées dans le Barcelone Supercomputing Center (BSC) et EMBL-EBI elle-même. Cette base de données occupe 16pb, ce qui équivaut à environ 3 milliards de chansons stockées au format MP3.

Ces exemples illustrent une alternative viable: un modèle basé sur la collaboration internationale. Cette approche garantit non seulement l'accès à l'information, même si l'un des nœuds échoue, mais améliore également la résilience, encourage la coopération mondiale et favorise l'accès ouvert à la science. En outre, il permet aux partenaires de se spécialiser dans les aspects technologiques concrètes, améliorant les processus d'accès à l'information sans créer de dépendances irréversibles.

La décentralisation est révélée comme un élément crucial dans le panorama international actuel, marqué par l'incertitude et la volatilité. Cependant, il n'est pas exempté de défis. Il nécessite des accords internationaux et des cadres de gouvernance robustes pour garantir que les données restent accessibles et bien gérées. Il nécessite également des investissements soutenus, qui, en tout cas, seront inférieurs au coût de la perte de données qui finit par être dévastatrice pour la recherche biomédicale et la santé publique.

Un exemple important de collaboration internationale est l'incorporation de cette même semaine du Canada au Consortium européen, avec l'Espagne, la Finlande, l'Allemagne, la Norvège, la Suède, la Pologne et le Portugal, qui gère la version fédérée de la base de données EGA. La version fédérée de l'EGA est un exemple de la façon dont la technologie peut s'adapter aux réglementations de confidentialité, telles que ce qu'elles entrent en vigueur avec le nouvel espace de données médicales européennes (European Health Data Space, EHDS). Dans ce système, les données génomiques de chaque pays sont stockées localement, sans quitter ses frontières, mais peuvent être analysées conjointement grâce à des logiciels spécialisés. Ces systèmes de données et analyse fédérée permettent aux chercheurs de différents pays de travailler avec les mêmes données simultanément et en toute sécurité, sans compromettre la vie privée des individus dont les génomes sont étudiés. Cette approche est essentielle pour le traitement des données sensibles, telles que la génomique, l'image clinique ou médicale.

Les événements récents montrent que l'Europe ne peut pas assumer l'accès aux informations scientifiques. Il est impératif de terminer les systèmes et les processus qui évitent les dépendances critiques, en adoptant des technologies qui permettent la création d'environnements collaboratifs et décentralisés. Des bases de données telles que PDB ou l'EGA fédéré marquent la voie à suivre afin que la science reste libre, ouverte et résiliente face aux circonstances politiques. Cet effort bénéficiera non seulement à la recherche scientifique et à la santé publique, mais favorisera également le progrès social.

A lire également