Nach0: Ravimi avastuste edendamine keelemudeli abil

Nach0: Ravimi avastuste edendamine keelemudeli abil

Nach0: Advancing Drug Discovery through Language Modeling

Insilico Medicine’i ja NVIDIA teadlased on välja töötanud uue suure keele mudeli (LLM) transformeri nimega nach0, mis võib revolutsiooniline muuta ravimite avastamist. Erinevalt olemasolevatest LLM-idest on nach0 koolitatud mitmekesistel ülesannetel, sealhulgas loomuliku keele mõistmine, sünteetiliste marsruutide ennustamine, molekulaarne genereerimine ja muu. Selle läbimurde uurimistöö tulemused avaldati hiljuti Chemical Science Journalis.

Biomeditsiini avastamiseks mõeldud LLM-id on tavaliselt keskendunud biomeditsiini tekstidele, nagu ravimid ja geenid, kuid on puudunud keemiliste struktuuri kirjelduste. Olemasolevad mudelid, mis hõlmavad nii teksti kui ka keemilisi struktuuri kirjeldusi, pole treenitud ulatuslikule keemiliste ülesannete valikule. Nach0 eesmärk on täita see tühimik, kasutades andmekogumit, mis hõlmab teadustöö abstraktide tekste PubMedist, patendi kirjeldusi USA Patendi- ja Kaubamärgiametist ning molekulaarstruktuure, kasutades lihtsustatud molekulaarse sisendi rea süsteemi (SMILES).

Nach0 koolitamiseks teisendati keemilised andmed sümboliteks, mis tulenes andmekogust, mis sisaldas 4,7 miljardit sümbolit. Mudelile anti seejärel spetsiaalsed sümbolid, et aidata teha kolme põhitegevust: loomuliku keele töötlemine, keemiaga seotud ülesanded ja ristvaldkonna ülesanded. Need tegevused hõlmavad dokumendi klassifitseerimist, küsimustele vastamist, molekulaarsete omaduste ennustamist, molekulaarsete genereerimist, reagendi ennustamist, kirjeldusjuhendiga molekuli kavandamist ja molekulaarsete kirjelduste genereerimist.

Nach0 esindab olulist edasiminekut ravimite avastamise automatiseerimisel loomulike keele käskude kasutamise kaudu. Tulevikus oodatakse, et mudel võtab omaks valgusekventsid ja läbib detailse häälestamise, et mahutada uusi mooduleid. Lisaks uuritakse teksti ja teadmiste graafikutest pärit teabe sulamist täiendava täiendamise jaoks.

Nach0 arendamine sai võimalikuks NVIDIA BioNeMo genereeriva AI platvormi kasutamisega, eriti NVIDIA NeMo NLP võimekustega ning mälu kaardistatud andmete laadimise moodulite abil, mis hõlbustasid suurte andmekogumite haldamist optimaalse lugemiskiirusega.

NVIDIA globaalse eluteaduste äriarengu juht Rory Kelleher usub, et geneerilisel AI-l ja LLM-idel on potentsiaali muuta bioloogia ja keemia teaduslikku avastamist. Võrreldes teiste biomeditsiinilikide kasutamisega, on nach0 näidanud selgesõnalisi eeliseid molekulaarülesannete täitmisel ja ületanud ChatGPT-d.

Nach0 võimekust testiti kahes juhtumianalüüsis. Ühes uuringus suutsid mudel edukalt genereerida molekule, millel oli potentsiaalne terapeutiline aktiivsus diabeedi vastu. Teises uuringus genereeris nach0 kaheksa mõõdet 15 minutiga genereerimiseks ja 30 minutiga punktide hindamiseks Insilico Chemistry42 AI ravimikavandiplatvormis.

Nach0 arenedes eeldatavasti vajab vähem järelevalvet ja muutub võimeliseks genereerima ja kinnitama lootustandvaid terapeutilisi võimalusi ravikeemikutele. Insilico Medicine, pioneertöö geneerilise AI kasutamisel ravimi avastamisel ja arendamisel, jätkab AI tehnoloogia piiride nihutamist uute terapeutiliste vahendite leidmiseks erinevate haiguste jaoks.

Viide:
Livne, M., jt. (2024). nach0: Multimodaalne loomulik keele ja keemiliste keelte alusmudel. Chemical Science. doi.org/10.1039/d4sc00966e.