Nach0: Повышение эффективности поиска лекарств с помощью языкового моделирования

Nach0: Повышение эффективности поиска лекарств с помощью языкового моделирования

Nach0: Advancing Drug Discovery through Language Modeling

Исследователи из Insilico Medicine и NVIDIA разработали новую модель большого языка (LLM) трансформатор, названную nach0, которая имеет потенциал изменить подход к открытию лекарств. В отличие от существующих LLM, nach0 обучена на разнообразных задачах, включая понимание естественного языка, прогноз синтетического маршрута, генерацию молекул и другие. Результаты этого переломного исследования недавно были опубликованы в журнале Chemical Science.

LLM для биомедицинского открытия обычно фокусировались на биомедицинских текстах, таких как препараты и гены, но они не включали описания химической структуры. Существующие модели, которые включают и текст, и описания химической структуры, не были обучены на широком спектре химических задач. Nach0 стремится заполнить этот пробел, используя набор данных, включающий абстрактные тексты из PubMed, описания патентов из Управления по патентам и товарным знакам США, и молекулярные структуры с использованием упрощенной информации о вводе линии молекул (SMILES).

Для обучения nach0 исследователи преобразовали химическую информацию в токены, что привело к набору данных в 4,7 миллиарда токенов. Затем модель была аннотирована специальными символами для выполнения трех ключевых задач: обработки естественного языка, химических задач и междоменных задач. Эти задачи включают классификацию документов, ответ на вопросы, прогнозирование свойств молекул, генерацию молекул, прогнозирование реагентов, проектирование молекул по описанию и генерацию описания молекул.

Nach0 представляет собой значительное улучшение в автоматизации открытия лекарств через использование естественных языковых подсказок. В будущем ожидается, что модель будет включать последовательности белков и пройдет тонкую настройку для поддержки новых модалей. Кроме того, будет исследовано слияние информации из текста и базы знаний для дальнейшего улучшения.

Разработка nach0 стала возможной благодаря использованию платформы генеративного искусственного интеллекта NVIDIA BioNeMo, в частности, использующей возможности NLP на основе NVIDIA NeMo. Кроме того, модули загрузчика данных с отображением памяти NVIDIA упростили управление большими наборами данных с оптимальной скоростью чтения.

Рори Келлехер, Глобальный руководитель по развитию бизнеса Жизненных наук в NVIDIA, считает, что генеративный искусственный интеллект и LLM имеют потенциал трансформировать научное открытие в биологии и химии. По сравнению с другими LLM, используемыми для биомедицинского понимания, nach0 продемонстрировала отличия в выполнении молекулярных задач и превзошла ChatGPT.

Возможности nach0 были испытаны в двух исследовательских работах. В одном исследовании модель успешно создала молекулы с потенциальной терапевтической активностью против диабета. В другом исследовании nach0 создала восемь молекул, удовлетворяющих запрос всего за 15 минут генерации и 30 минут подсчета в платформе по разработке лекарств Chemistry42 AI компании Insilico.

По мере эволюции nach0 ожидается, что ей понадобится меньше надзора и она сможет создавать и подтверждать многообещающие терапевтические варианты для медицинских химиков. Insilico Medicine, пионер в использовании генеративного искусственного интеллекта для открытия и развития лекарств, продолжает преодолевать границы технологии искусственного интеллекта в поиске новых терапевтических средств для различных заболеваний.

The source of the article is from the blog macholevante.com