Nach0 : Faire avancer la découverte de médicaments grâce à la modélisation linguistique

Nach0 : Faire avancer la découverte de médicaments grâce à la modélisation linguistique

Nach0: Advancing Drug Discovery through Language Modeling

Des chercheurs d’Insilico Medicine et de NVIDIA ont développé un nouveau grand modèle de langage (LLM) appelé nach0 qui a le potentiel de révolutionner la découverte de médicaments. Contrairement aux LLM existants, nach0 est formé sur une gamme variée de tâches, y compris la compréhension du langage naturel, la prédiction de voies de synthèse, la génération moléculaire, et plus encore. Les résultats de cette recherche révolutionnaire ont récemment été publiés dans le Journal of Chemical Science.

Les LLM pour la découverte biomédicale se sont généralement concentrés sur des textes biomédicaux, tels que des médicaments et des gènes, mais ont manqué de descriptions de structures chimiques. Les modèles existants qui incluent à la fois du texte et des descriptions de structures chimiques n’ont pas été formés pour un large éventail de tâches chimiques. Nach0 vise à combler ce fossé en utilisant un ensemble de données qui intègre des textes abstraits de PubMed, des descriptions de brevets de l’Office américain des brevets et des marques de commerce, et des structures moléculaires utilisant le système de saisie en ligne moléculaire simplifiée (SMILES).

Pour former nach0, les chercheurs ont converti les informations chimiques en jetons, ce qui a permis d’obtenir un ensemble de données de 4,7 milliards de jetons. Le modèle a ensuite été annoté avec des symboles spéciaux pour aider à effectuer trois tâches clés : le traitement du langage naturel, les tâches liées à la chimie et les tâches inter-domaines. Ces tâches englobent la classification de documents, la réponse à des questions, la prédiction de propriétés moléculaires, la génération moléculaire, la prédiction de réactifs, la conception de molécules guidée par la description et la génération de descriptions moléculaires.

Nach0 représente une avancée significative dans l’automatisation de la découverte de médicaments grâce à l’utilisation de sollicitations de langage naturel. À l’avenir, le modèle devrait incorporer des séquences de protéines et subir un affinement pour accommoder de nouvelles modalités. De plus, la fusion d’informations provenant de textes et de graphes de connaissances sera explorée pour une amélioration ultérieure.

Le développement de nach0 a été rendu possible grâce à l’utilisation de la plateforme d’IA générative NVIDIA BioNeMo, en exploitant spécifiquement les capacités de NLP de NVIDIA NeMo. En outre, les modules de chargement de données par mappage mémoire de NVIDIA ont facilité la gestion de grands ensembles de données avec une vitesse de lecture optimale.

Rory Kelleher, responsable mondial du développement commercial des sciences de la vie chez NVIDIA, estime que l’IA générative et les LLM ont le potentiel de transformer la découverte scientifique en biologie et en chimie. En comparaison avec d’autres LLM utilisés pour la compréhension biomédicale, nach0 a démontré des avantages distincts dans l’exécution de tâches moléculaires et a surpassé ChatGPT.

Les capacités de nach0 ont été mises à l’épreuve dans deux études de cas. Dans une étude, le modèle a généré avec succès des molécules ayant une activité thérapeutique potentielle contre le diabète sucré. Dans une autre étude, nach0 a généré huit molécules satisfaisant une instruction en seulement 15 minutes pour la génération et 30 minutes pour l’évaluation dans la plateforme de conception de médicaments basée sur l’IA Chemistry42 d’Insilico.

À mesure que nach0 évolue, on s’attend à ce qu’il nécessite moins de supervision et soit capable de générer et de valider des options thérapeutiques prometteuses pour les chimistes médicinaux. Insilico Medicine, pionnier dans l’utilisation de l’IA générative pour la découverte et le développement de médicaments, continue de repousser les limites de la technologie IA dans la recherche de nouveaux actifs thérapeutiques pour diverses maladies.

Référence :
Livne, M., et al. (2024). nach0 : Modèle de base de fondation pour les langages naturels et chimiques multimodaux. Journal de chimie. doi.org/10.1039/d4sc00966e.