Nach0: Posun vpred vo výskume liečiv pomocou jazykových modelov

Nach0: Posun vpred vo výskume liečiv pomocou jazykových modelov

Nach0: Advancing Drug Discovery through Language Modeling

Výskumníci v spoločnosti Insilico Medicine a spoločnosť NVIDIA vyvinuli nový veľký jazykový model (LLM) nazvaný nach0, ktorý má potenciál zmeniť spôsob objavovania liečiv. Na rozdiel od existujúcich LLMs je nach0 vyškolený na rôzne úlohy, vrátane porozumenia prirodzenému jazyku, predpovedania syntetických ciest, tvorby molekúl a ďalších. Výsledky tejto prelomovej výskumnej práce boli nedávno zverejnené v časopise Chemical Science Journal.

LLM pre biomedicínske objavy sa zameriavali najmä na biomedicínske texty, ako sú liečivá a gény, ale chýbali im popisy chemických štruktúr. Existujúce modely, ktoré zahŕňajú texty a popisy chemických štruktúr, neboli vyškolené na široké spektrum chemických úloh. Nach0 sa snaží tento nedostatok riešiť využitím sady údajov, ktorá zahŕňa abstrakty z PubMed-u, popisy patentov z Úradu pre patenty a ochranné známky USA a molekulárne štruktúry pomocou zjednodušeného molekulového vstupného riadkovacieho systému (SMILES).

Pre školenie nach0 výskumníci skonvertovali chemické informácie do tokenov, čím vznikla sada údajov s 4,7 miliardami tokenov. Model bol následne anotovaný špeciálnymi symbolmi, ktoré pomáhajú pri vykonávaní troch kľúčových úloh: spracovanie prirodzeného jazyka, chemicky súvisiace úlohy a úlohy medzi doménami. Tieto úlohy zahŕňajú klasifikáciu dokumentov, odpovede na otázky, predpovede molekulárnych vlastností, tvorbu molekúl, predpoveď reagencií, návrh molekúl riadený popisom a tvorbu popisu molekúl.

Nach0 predstavuje významný pokrok v automatizácii objavovania liečiv prostredníctvom použitia prírodných dotazov. V budúcnosti sa očakáva, že model bude zahŕňať sekvencie proteínov a podstúpi jemné doladenie, aby zvládal nové zložky. Okrem toho sa bude skúmať fúzia informácií z textu a znalostných grafov na ďalšie zlepšenie.

Vývoj nach0 bol umožnený využitím platformy generatívnej AI NVIDIA BioNeMo, konkrétne využívaním NLP schopností NVIDIA NeMo. Ďalej moduly pre načítavanie údajov s pamäťou mapovanou do pamäte od NVIDIE umožnili správu veľkých sád údajov s optimálnou rýchlosťou čítania.

Rory Kelleher, Globálny vedúci obchodného rozvoja pre životné vedy v spoločnosti NVIDIA, verí, že generatívna AI a LLM majú potenciál zmeniť vedecký objav v biológii a chémii. V porovnaní s inými LLM, ktoré sa používajú na biomedicínske porozumenie, nach0 preukázal výhody pri vykonávaní molekulárnych úloh a prevýšil ChatGPT.

Schopnosti nach0 boli testované v dvoch prípadových štúdiách. V jednej štúdii model úspešne generoval molekuly s potenciálnou terapeutickou aktivitou proti cukrovke. V ďalšej štúdii nach0 vygeneroval osem molekúl, ktoré spĺňali zadanie, len za 15 minút na generovanie a 30 minút na skórovanie v AI platforme pre dizajn liečiv Chemistry42 od Insilico.

S rozvojom nach0 sa očakáva, že bude potrebovať menej dohľadu a bude schopný generovať a overovať sľubné terapeutické možnosti pre lekárov medicinal chemists. Firma Insilico Medicine, pioneeri v používaní generatívnej AI pre objavovanie a vývoj liečiv, pokračuje v posúvaní hraníc AI technológií v hľadaní nových terapeutických prostriedkov pre rôzne choroby.

Referencia:
Livne, M., et al. (2024). nach0: Multimodálny model základov prírodných a chemických jazykov. Chemical Science. doi.org/10.1039/d4sc00966e.

Dôležité otázky a odpovede:
1. Čo je nach0?
– Nach0 je veľký jazykový modelový transformátor vyvinutý spoločnosťou Insilico Medicine a NVIDIA s cieľom revolucionizovať objavovanie liečiv prostredníctvom svojho vyškolenia na rôzne úlohy.

2. Aké údaje boli použité na vyškolenie nach0?
– Do výcvikovej sady údajov nach0 boli zahrnuté abstrakty z PubMed-u, popisy patentov z Úradu pre patenty a ochranné známky USA a molekulárne štruktúry zobrazené v podobe SMILES.

3. Aké sú kľúčové úlohy, ktoré môže nach0 vykonávať?
– Nach0 je schopný vykonávať spracovanie prirodzeného jazyka, úlohy súvisiace s chémiou a úlohy medzi doménami, ako je klasifikácia dokumentov, zodpovedanie otázok, predpoveď molekulárnych vlastností, tvorba molekúl, predpoveď reagencií, návrh molekúl riadený popisom a vytvorenie popisu molekúl.

4. Ako automatizuje nach0 objavovanie liečiv?
– Nach0 využíva prírodné jazykové dotazy na automatizáciu objavovania liečiv tým, že generuje a overuje potenciálne terapeutické možnosti pre lekárov medicinal chemists.

5. Aké výhody má nach0 oproti iným LLMs?
– Nach0 preukázal výhody pri vykonávaní molekulárnych úloh a prevýšil ChatGPT, populárny jazykový model, v tomto ohľade.

Kľúčové výzvy alebo kontroverzie:
1. Dohľad a overovanie: Keď nach0 sa vyvíja, jednou kľúčovou výzvou bude znížiť požiadavky na dozor ľudí a zabezpečiť generovanie a overovanie sľubných terapeutických možností.

Výhody a nevýhody:
Výhody:
– Nach0 má potenciál zmeniť objavovanie liečiv automatizáciou rôznych úloh pomocou prírodných jazykových dotazov.
– Zahŕňa rozsiahlu súpravu údajov, ktorá zahŕňa texty i popisy chemických štruktúr, poskytujúc komplexné základy pre objavovanie liečiv.

Nevýhody:
– V článku sa explicitne nehovorí o žiadnych nevýhodách nach0.

Navrhnuté súvisiace odkazy:
Insilico Medicine
NVIDIA AI Labs