Nahaj0: Napredek v odkrivanju zdravil s pomočjo modeliranja jezika

Nahaj0: Napredek v odkrivanju zdravil s pomočjo modeliranja jezika

Nach0: Advancing Drug Discovery through Language Modeling

Raziskovalci pri podjetju Insilico Medicine in NVIDIA so razvili nov velik model za jezikovno obdelavo (LLM) imenovan nach0, ki ima potencial, da revolucionira odkrivanje zdravil. Za razliko od obstoječih LLM-jev, je nach0 treniran na raznolikem naboru nalog, vključno z razumevanjem naravnega jezika, napovedovanjem sintetičnih poti, generiranjem molekul in še več. Ugotovitve tega prebojnega raziskovanja so bile nedavno objavljene v reviji Chemical Science.

LLM-i za biomedicinsko odkrivanje so se običajno osredotočali na biomedicinska besedila, kot so zdravila in geni, vendar jim je manjkala opisna kemikalna struktura. Obstajajoči modeli, ki vključujejo tako besedilo kot opisno kemikalno strukturo, niso bili trenirani za širok nabor kemijskih nalog. Nach0 si prizadeva rešiti to vrzel z uporabo nabora podatkov, ki vključuje abstraktne tekstovne datoteke iz PubMeda, opise patentov iz Urad za patente in blagovne znamke ZDA ter molekulske strukture s pomočjo poenostavljenega sistema vnosa molekul (SMILES).

Za usposabljanje nach0 so raziskovalci kemijske informacije pretvorili v čipe in tako dobili nabor podatkov z 4,7 milijarde čipov. Model so nato opremili s posebnimi simboli, da bi pomagali pri izvedbi treh ključnih nalog: obdelavi naravnega jezika, kemijskih nalogah ter medsebojnih nalogah. Te naloge zajemajo klasifikacijo dokumentov, odgovarjanje na vprašanja, napovedovanje lastnosti molekul, generiranje molekul, napovedovanje reagentov, načrtovanje molekul na podlagi opisa ter generiranje molekulskih opisov.

Nach0 predstavlja pomembno napredovanje pri avtomatizaciji odkrivanja zdravil prek uporabe naravnih jezikovnih povzetkov. V prihodnosti se pričakuje, da bo model vključeval tudi zaporedja proteinov in doživel fino prilagajanje za sprejetje novih modalnosti. Poleg tega se bo raziskalo združevanje informacij iz besedila in grafov znanja za dodatno izboljšanje.

Razvoj nach0 je bil mogoč s pomočjo platforme za generativno umetno inteligenco NVIDIA BioNeMo, ki posebej izkorišča sposobnosti NLP NVIDIA NeMo. Poleg tega so moduli za nalaganje podatkov zemljevidov pomnilnika NVIDIA omogočili upravljanje velikih nizov podatkov z optimalno hitrostjo branja.

Rory Kelleher, globalni direktor za poslovni razvoj pri NVIDIA za življenjske znanosti, verjame, da ima generativna umetna inteligenca in LLM-i potencial, da preoblikujejo znanstveno odkritje v biologiji in kemiji. V primerjavi z drugimi LLM-i, ki se uporabljajo za medicinsko razumevanje, je nach0 pokazal posebne prednosti pri opravljanju molekulskih nalog in je presegel ChatGPT.

Zmožnosti nach0 so bile preizkušene v dveh študijah primera. V eni študiji je model uspešno generiral molekule z možno terapevtsko aktivnostjo proti diabetesu mellitus. V drugi študiji je nach0 v le 15 minutah generiral osem molekul, ki ustrezajo povzetku, v 30 minutah pa je bil dosežen rezultat v platformi za izdelavo zdravil Chemistry42 podjetja Insilico.

Ko se nach0 razvija, se pričakuje, da bo potreboval manj nadzora in bo sposoben generirati in potrjevati obetavne terapevtske možnosti za farmacevte. Insilico Medicine, pionir pri uporabi generativne umetne inteligence za odkrivanje in razvoj zdravil, še naprej širi meje tehnologije umetne inteligence v iskanju novih terapevtskih sredstev za različne bolezni.

Reference:
Livne, M., et al. (2024). nach0: Multimodalni model temeljev za naravne in kemijske jezike. Chemical Science. doi.org/10.1039/d4sc00966e.

Čebelice:
1. Nach0 je velik model za jezikovno obdelavo izdelan s strani Insilico Medicine in NVIDIA z namenom revolucioniranja odkrivanja zdravil.
2. Za razliko od obstoječih LLM-jev je nach0 treniran na raznolikem naboru nalog, vključno z razumevanjem naravnega jezika, napovedovanjem sintetičnih poti, generiranjem molekul in več.
3. Nach0 združuje abstraktne tekstovne datoteke iz PubMeda, opise patentov iz U.S. Patent and Trademark Office ter molekulske strukture s SMILES zapisom, da zagotovi celovit nabor podatkov.
4. Model je bil treniran na naboru podatkov z 4,7 milijarde čipov, pri čemer so se središčili na tri ključne naloge: obdelava naravnega jezika, kemijske naloge in medsebojne naloge.
5. Nach0 uporablja naravne jezikovne povzetke za avtomatizacijo odkrivanja zdravil, in pričakuje se, da bodo prihodnje verzije vključevale zaporedja proteinov ter doživele fino prilagajanje, da sprejmejo nove modalnosti.
6. NVIDIA BioNeMo platforma za generativno umetno inteligenco, zlasti sposobnosti NLP NVIDIA NeMo, in moduli za nalaganje podatkov zemljevidov pomnilnika NVIDIA so igrali ključno vlogo pri razvoju nach0.
7. Nach0 je pokazal prednosti pred drugimi LLM-i pri opravljanju molekulskih nalog in je presegel ChatGPT v tem pogledu.
8. Študije primera so pokazale, da je nach0 sposoben ustvariti molekule z možno terapevtsko aktivnostjo in doseči rezultate hitro, saj je generiral osem molekul v 15 minutah in jih ocenil v 30 minutah.

Pomembna vprašanja in odgovori:
1. Kaj je nach0?
– Nach0 je velik model za jezikovno obdelavo, razvit s strani Insilico Medicine in NVIDIA, ki si prizadeva revolucionirati odkrivanje zdravil prek usposabljanja na raznolikem naboru nalog.

2. Katere podatkovne zbirke so bile uporabljene za usposabljanje nach0?
– V usposabljanje nach0 so bile vključene abstraktne tekstovne datoteke iz PubMeda, opisi patentov iz U.S. Patent and Trademark Office ter molekulske strukture z uporabo SMILES predstavitve.

3. Katere ključne naloge lahko izvede nach0?
– Nach0 je sposoben izvesti obdelavo naravnega jezika, kemijske naloge in medsebojne naloge, kot so klasifikacija dokumentov, odgovarjanje na vprašanja, napovedovanje lastnosti molekul, generiranje molekul, napovedovanje reagentov, načrtovanje molekul na podlagi opisa ter generiranje molekulskih opisov.

4. Kako nach0 avtomatizira odkrivanje zdravil?
– Nach0 uporablja naravne jezikovne povzetke za avtomatizacijo odkrivanja zdravil prek generiranja in potrjevanja potencialnih terapevtskih možnosti za farmacevte.

5. Kakšne prednosti ima nach0 pred drugimi LLM-i?
– Nach0 je pokazal prednosti pri opravljanju molekulskih nalog in je presegel ChatGPT, priljubljen jezikovni model, v tem pogledu.

Ključni izzivi ali kontroverze:
1. Nadzor in potrditev: Ko se nach0 razvija, bo eden od ključnih izzivov zmanjšanje zahteve po človeškem nadzoru in zagotavljanje generiranja in potrjevanja obetavnih terapevtskih možnosti.

Prednosti in slabosti:
Prednosti:
– Nach0 ima potencial, da revolucionira odkrivanje zdravil s pomočjo avtomatizacije različnih nalog prek uporabe naravnih jezikovnih povzetkov.
– Vključuje raznolik nabor podatkov, ki vključuje tako besedila kot opise kemičnih struktur, kar zagotavlja celovito podlago za odkrivanje zdravil.

Slabosti:
– Članek nima eksplicitnih omemb o negativnih straneh nach0.

Predlagane povezave:
Insilico Medicine
NVIDIA AI Labs