Tutkijat Insilico Medicine ja NVIDIA ovat kehittäneet uuden suuren kielimallin (large language model, LLM) transformerin nimeltä nach0, jolla on potentiaalia vallankumota lääkekehitystä. Toisin kuin olemassa olevat LLM-mallit, nach0 on koulutettu monipuolisella joukolla tehtäviä, kuten luonnollisen kielen ymmärtäminen, synteettisen reitin ennustaminen, molekyylien luominen ja muut. Tämän läpimurron tulokset julkaistiin äskettäin Chemical Science -lehdessä.
Biomedikaalisen löytämisen LLM-mallit ovat tyypillisesti keskittyneet biolääketieteellisiin teksteihin, kuten lääkkeisiin ja geeneihin, mutta ovat puuttuneet kemiallisista rakennekuvauksista. Olemassa olevat mallit, jotka sisältävät sekä tekstiä että kemiallisia rakennekuvauksia, eivät ole olleet koulutettuja laajalle kemialliselle tehtävien kirjoon. Nach0 pyrkii täyttämään tämän eron hyödyntämällä aineistoa, joka sisältää abstrakteja tekstejä PubMedista, patenttikuvauksia Yhdysvaltain patentti- ja tavaramerkkivirastosta sekä molekyylien rakenteet käyttäen yksinkertaistettua molekyylisyötön linjajärjestelmää (SMILES).
Kouluttaakseen nach0:aa tutkijat muuttivat kemiallisen tiedon merkkijonoiksi, mikä johti 4,7 miljardin merkin tietojoukkoon. Malli merkittiin sitten erityisillä symboleilla auttamaan kolmen keskeisen tehtävän suorittamisessa: luonnollisen kielen käsittelyssä, kemiasta riippuvaisissa tehtävissä ja poikkeava-alueiden tehtävissä. Näihin tehtäviin kuuluvat dokumenttien luokittelu, kysymyksiin vastaaminen, molekyylien ominaisuuksien ennustaminen, molekyylien luominen, reagenssin ennustaminen, kuvausten ohjaama molekyylien suunnittelu ja molekyylipohjaisen kuvauksen luominen.
Nach0 edustaa merkittävää edistystä lääkekehityksen automatisoinnissa luonnollisen kielen kehotteiden avulla. Tulevaisuudessa odotetaan, että malli sisältää proteiinijonot ja läpikäy hienosäädön uusia muotoja varten. Lisäksi tekstistä ja tietograafeista saadun tiedon yhdistämistä tutkitaan edelleen mahdollisen parannuksen saavuttamiseksi.
Nach0:n kehittäminen oli mahdollista NVIDIA BioNeMo -generatiivisen tekoälyalustan avulla, hyödyntäen erityisesti NLP-ominaisuuksia NVIDIA NeMo:lla. Lisäksi NVIDIA:n muistilla karttuvat tiedonlatausmoduulit helpottivat suurten tietojoukkojen hallintaa optimaalisella lukunopeudella.
Rory Kelleher, NVIDIA: n elämätieteiden maailmanlaajuinen liiketoiminnan kehityspäällikkö, uskoo generatiivisen tekoälyn ja LLM: ien potentiaaliin muuttaa tieteellistä löytämistä biologiassa ja kemiassa. Vertailtuna muihin biolääketieteelliseen ymmärtämiseen käytettyihin LLM: iin, nach0 on osoittanut selviä etuja suorittamalla molekyylitehtäviä ja on päihittänyt ChatGPT: n.
Nach0:n kykyjä testattiin kahdessa tapaustutkimuksessa. Yhdessä tutkimuksessa malli loi onnistuneesti molekyylejä, joilla oli potentiaalia terapeuttiseen vaikutukseen Diabetes mellituksen torjunnassa. Toisessa tutkimuksessa nach0 loi kahdeksan 15 minuutissa aikarajalla rabidisti Lääketeollisuuden Chemistry42 AI -lääke suunnittelualustassa arviointiin insilicon tuottamien tulosten esiintymisen unohtamiseksi.
Nach0:n kehityksen myötä odotetaan, että se vaatii vähemmän valvontaa ja tulee kykeneväksi luomaan ja validoinnksi lupaavia terapeuttisia vaihtoehtoja lääkeaineiden kemisteille. Insilico Medicine, edelläkävijä generatiivisen tekoälyn käytössä lääkekehityksessä, jatkaa tekoälyteknologian rajojen työntämistä uusien terapeuttisten varojen löytämiseksi eri sairauksien hoitoon.
Viite:
Livne, M., et al. (2024). nach0: Multimodal Natural and Chemical Languages Foundation Model. Chemical Science. doi.org/10.1039/d4sc00966e.