Language: pl Title: Nach0: Postęp w odkrywaniu leków poprzez modelowanie języka

Language: pl Title: Nach0: Postęp w odkrywaniu leków poprzez modelowanie języka

Nach0: Advancing Drug Discovery through Language Modeling

Naukowcy z Insilico Medicine i NVIDIA opracowali nowy duży model językowy (LLM) transformera o nazwie nach0, który ma potencjał rewolucjonizować odkrywanie leków. W przeciwieństwie do istniejących LLM, nach0 jest szkolony na różnorodnych zadaniach, takich jak zrozumienie języka naturalnego, przewidywanie szlaku syntezy, generowanie cząsteczek i inne. Wyniki tej przełomowej pracy zostały niedawno opublikowane w czasopiśmie Chemical Science Journal.

LLM-y do odkrywania biomedycznego dotychczas koncentrowały się głównie na tekstach biomedycznych, takich jak leki i geny, ale brakowało im opisów struktury chemicznej. Istniejące modele, które łączą zarówno tekst, jak i opisy struktury chemicznej, nie były szkolone na wiele różnych zadań chemicznych. Nach0 ma na celu zniwelowanie tej luki, wykorzystując zbiór danych, który obejmuje teksty abstraktów z PubMed, opisy patentowe z Biura Patentowego i Urzędu Znaków Towarowych USA oraz struktury molekularne za pomocą uproszczonego systemu wprowadzania linii wejściowych (SMILES).

Aby szkolić nach0, badacze przekonwertowali informacje chemiczne na tokeny, generując zbiór danych zawierający 4,7 miliarda tokenów. Następnie model został oznaczony za pomocą specjalnych symboli, aby pomóc w wykonywaniu trzech kluczowych zadań: przetwarzania języka naturalnego, zadań związanych z chemią i zadań międzydziedzinowych. Te zadania obejmują klasyfikację dokumentów, odpowiadanie na pytania, przewidywanie właściwości molekularnych, generowanie molekuł, przewidywanie reagentów, projektowanie molekul na podstawie opisu oraz generowanie opisu molekularnego.

Nach0 stanowi znaczący postęp w automatyzacji odkrywania leków poprzez wykorzystanie naturalnych poleceń językowych. W przyszłości spodziewa się, że model ten będzie zawierał sekwencje białkowe i zostanie poddany finezyjnej regulacji, aby dostosować się do nowych modalności. Dodatkowo, planuje się zbadanie łączenia informacji z tekstu i grafów wiedzy w celu dalszego ulepszenia.

Rozwój nach0 był możliwy dzięki wykorzystaniu platformy NVIDIA BioNeMo do sztucznej inteligencji generatywnej, a w szczególności korzystając z możliwości przetwarzania języka naturalnego w NVIDIA NeMo. Ponadto moduły obciążenia danych w pamięci zmapowanej przez NVIDIA ułatwiły zarządzanie dużymi zestawami danych z optymalną prędkością odczytu.

Rory Kelleher, Globalny Dyrektor Rozwoju Biznesu ds. Nauk Biologicznych w NVIDIA, uważa, że generatywna sztuczna inteligencja i LLM-y mają potencjał przekształcić odkrywanie naukowe w biologii i chemii. W porównaniu do innych LLM-y używanych do zrozumienia biomedycznego, nach0 wykazał wyraźne zalety w wykonywaniu zadań molekularnych i przewyższył ChatGPT.

Zdolności nach0 zostały poddane próbie w dwóch studiach przypadku. W jednym z badań model skutecznie wygenerował cząsteczki o potencjalnej aktywności terapeutycznej przeciwko cukrzycy. W innym badaniu nach0 wygenerował osiem cząsteczek zgodnych z poleceniem w zaledwie 15 minut dla generowania i 30 minut na ocenę w platformie projektowania leków Chemistry42 AI od Insilico.

Wyewoluowany nach0 ma potencjał, aby wymagać mniej nadzoru i stać się zdolny do generowania i weryfikowania obiecujących opcji terapeutycznych dla chemików medycznych. Insilico Medicine, pionier w wykorzystaniu generatywnej sztucznej inteligencji do odkrywania i rozwoju leków, ciągle posuwa granice technologii AI w poszukiwaniu nowych terapeutycznych aktywów na różne choroby.

Odnośnik:
Livne, M., i in. (2024). nach0: Model Fundacyjny Języka Naturalnego i Chemicznego. Chemical Science. doi.org/10.1039/d4sc00966e.