Наука: Продвижение открытия лекарств через языковое моделирование

Наука: Продвижение открытия лекарств через языковое моделирование

Nach0: Advancing Drug Discovery through Language Modeling

Исследователи из Insilico Medicine и NVIDIA разработали новую большую языковую модель (LLM) трансформатор под названием nach0, которая имеет потенциал радикально изменить область поиска лекарств. В отличие от существующих LLMs, nach0 обучен на разнообразных задачах, включая понимание естественного языка, предсказание синтетических маршрутов, генерацию молекул и другие. Результаты этого прорывного исследования недавно были опубликованы в журнале Chemical Science.

LLMs для биомедицинского открытия обычно фокусируются на биомедицинских текстах, таких как лекарства и гены, но не содержат описаний химической структуры. Существующие модели, включающие как текст, так и описания химической структуры, не были обучены на широкий спектр химических задач. Nach0 стремится заполнить этот пробел, используя набор данных, который объединяет абстрактные тексты из базы данных PubMed, описания патентов из Управления патентов и товарных знаков США и молекулярные структуры, используя упрощенную систему ввода строк молекул (SMILES).

Для обучения nach0 исследователи преобразовали химическую информацию в токены, в результате чего получился набор данных из 4,7 миллиарда токенов. Модель была затем аннотирована особыми символами, чтобы помочь в выполнении трех ключевых задач: обработка естественного языка, химические задачи и перекрестные задачи. Эти задачи включают классификацию документов, ответы на вопросы, предсказание свойств молекул, генерацию молекул, предсказание реагентов, проектирование молекул по описанию и генерацию описания молекулы.

Nach0 представляет собой значительное совершенствование в автоматизации поиска лекарств с помощью естественных языковых запросов. В будущем ожидается, что модель будет интегрировать последовательности белков и пройти доводку для использования новых модальностей. Кроме того, будет исследовано слияние информации из текста и баз знаний для дальнейшего усовершенствования.

Разработка nach0 стала возможной благодаря использованию платформы генеративного искусственного интеллекта BioNeMo от NVIDIA, в частности, используя возможности обработки естественного языка NVIDIA NeMo. Кроме того, модули загрузки данных с отображением памяти от NVIDIA облегчили управление большими наборами данных с оптимальной скоростью чтения.

Рори Келлехер, Глобальный руководитель отдела развития бизнеса по науке о жизни в NVIDIA, считает, что генеративный ИИ и LLM имеют потенциал преобразить научные открытия в биологии и химии. По сравнению с другими LLM, используемыми для понимания биомедицинских аспектов, nach0 продемонстрировала определенные преимущества в выполнении молекулярных задач и превзошла ChatGPT.

Возможности nach0 были протестированы в двух кейс-исследованиях. В одном из них модель успешно сгенерировала молекулы с потенциальной терапевтической активностью против диабета. В другом случае nach0 сгенерировала восемь молекул, удовлетворяющих запросу, всего за 15 минут на генерацию и 30 минут на оценку на платформе по разработке Химии42 от Insilico.

По мере развития nach0 ожидается, что модель будет требовать меньше контроля и станет способной генерировать и проверять перспективные терапевтические варианты для медицинских химиков. Insilico Medicine, пионер в использовании генеративного ИИ для поиска и разработки лекарств, продолжает совершенствовать технологии искусственного интеллекта в поисках новых терапевтических средств для различных заболеваний.

Ссылка:
Ливне, М., и др. (2024). nach0: Фундаментальная модель мультимодальных естественных и химических языков. Chemical Science. doi.org/10.1039/d4sc00966e.