Nah0: Unapređivanje otkrića lekova putem modelovanja jezika

Nah0: Unapređivanje otkrića lekova putem modelovanja jezika

Nach0: Advancing Drug Discovery through Language Modeling

Istraživači Instituta Insilico i NVIDIA razvili su novi model transformatora velikog jezika (LLM) nazvan nach0 koji ima potencijal da revolucionira otkriće lekova. Za razliku od postojećih LLM-ova, nach0 je obučen na raznovrsnom spektru zadataka, uključujući razumevanje prirodnog jezika, predikciju sintetičkih ruta, molekularnu generaciju i još mnogo toga. Rezultati ovog naprednog istraživanja nedavno su objavljeni u časopisu Chemical Science.

LLM-ovi za biomedicinsko otkriće obično su fokusirani na biomedicinske tekstove, poput lekova i gena, ali nedostaju im opisi hemijskih struktura. Postojeći modeli koji uključuju i tekst i opise hemijskih struktura nisu obučeni za širok spektar hemijskih zadataka. Nach0 ima za cilj da popuni ovu prazninu koristeći skup podataka koji uključuje apstraktne tekstove iz PubMed-a, opise patenata iz Ureda za patente i zaštitne znakove Sjedinjenih Američkih Država, kao i molekulske strukture koristeći sasvim pojednostavljeni sistem unosa molekula (SMILES).

Da bi obučili nach0, istraživači su prebacili hemijske informacije u tokene, rezultirajući skupom podataka od 4,7 milijardi tokena. Model je zatim anotiran specijalnim simbolima kako bi pomogao u izvođenju tri ključna zadatka: obrada prirodnog jezika, hemijski povezani zadaci i zadaci u preseku domena. Ovi zadaci obuhvataju klasifikaciju dokumenata, odgovaranje na pitanja, predikciju molekularnih svojstava, generaciju molekula, predikciju reagenasa, dizajn molekula vođen opisom i generaciju opisa molekula.

Nach0 predstavlja značajan napredak u automatizaciji otkrića lekova kroz upotrebu prirodnih jezičkih uputa. U budućnosti se očekuje da će model uključiti proteinske sekvence i proći kroz fino podesnje kako bi se prilagodio novim modalitetima. Dodatno, istraživaće se fuzija informacija iz teksta i grafova znanja radi daljnje optimizacije.

Razvoj nach0 je omogućen korišćenjem NVIDIA BioNeMo platforme za generativnu veštačku inteligenciju, posebno iskorišćavajući sposobnosti obrade prirodnog jezika NVIDIA NeMo. Takođe, NVIDIA-ovi moduli za učitavanje podataka mapiranih u memoriju olakšali su upravljanje velikim skupovima podataka sa optimalnom brzinom čitanja.

Rory Kelleher, globalni direktor poslovnog razvoja za nauke o životu u NVIDIA-i, veruje da generativna veštačka inteligencija i LLM-ovi imaju potencijal da transformišu naučna otkrića u biologiji i hemiji. U poređenju sa drugim LLM-ovima korišćenim za biomedicinsko razumevanje, nach0 je pokazao posebne prednosti u izvođenju molekulskih zadataka i nadmašio ChatGPT.

Mogućnosti nach0 su testirane u dva studijska slučaja. U jednoj studiji, model je uspešno generisao molekule sa potencijalnom terapijskom aktivnošću protiv dijabetesa melitusa. U drugoj studiji, nach0 je generisao osam molekula zadovoljavajući jednu uputu za generisanje za samo 15 minuta i prosleđivanje za ocenu u roku od 30 minuta na platformi za dizajn lekova Chemistry42 kompanije Insilico.

Kako nach0 napreduje, očekuje se da će zahtevati manje nadzora i postati sposoban da generiše i validira obećavajuće terapeutske opcije za medinske hemičare. Institucija Insilico Medicine, pionir u korišćenju generativne veštačke inteligencije za otkriće i razvoj lekova, nastavlja da pomera granice tehnologije veštačke inteligencije u potrazi za novim terapijskim sredstvima za različite bolesti.

Reference:
Livne, M., et al. (2024). nach0: Multimodalni model osnova za prirodne i hemijske jezike. Chemical Science. doi.org/10.1039/d4sc00966e.