ナチ0:言語モデリングを通じた医薬品探索の進歩

ナチ0:言語モデリングを通じた医薬品探索の進歩

Nach0: Advancing Drug Discovery through Language Modeling

Insilico MedicineとNVIDIAの研究者は、新しい大規模言語モデル(LLM)トランスフォーマー「nach0」を開発しました。このモデルは、薬物発見を革新する可能性を秘めています。既存のLLMと異なり、nach0は自然言語理解、合成経路予測、分子生成など、多様なタスクにトレーニングされています。この画期的な研究の結果は、最近Chemical Science Journalに掲載されました。

従来の生命科学発見用のLLMは、通常、薬剤や遺伝子などの生命科学テキストに焦点を当てていましたが、化学構造の記述が不足していました。テキストと化学構造の両方を含む既存のモデルは、広範囲の化学タスクに対してトレーニングされていませんでした。nach0は、PubMedからの抄録テキスト、米国特許庁からの特許記述、およびSMILES(化学構造の簡略入力ライン方式)を使用した分子構造を組み込んだデータセットを利用して、このギャップに対処しようとしています。

nach0をトレーニングするために、研究者は化学情報をトークンに変換し、47億トークンのデータセットを作成しました。次に、モデルには、自然言語処理、化学関連タスク、およびクロスドメインタスクの実行を支援するための特別なシンボルが注釈付けされました。これらのタスクは、文書分類、質問応答、分子特性予測、分子生成、試薬予測、記述による分子設計、および分子記述生成を含みます。

nach0は、自然言語プロンプトを使用して医薬品発見を自動化することで、画期的な進歩を表しています。将来のモデルでは、タンパク質配列を組み込み、新しいモダリティに対応するための微調整が予想されています。さらに、テキストと知識グラフからの情報の融合は、さらなる向上を目指して探究されるでしょう。

nach0の開発は、NVIDIA BioNeMo生成AIプラットフォームを使用して実現されました。特に、NVIDIA NeMoのNLP機能を活用し、NVIDIAのメモリマップドデータローダーモジュールが大規模データセットの管理を最適な読み取り速度で支援しました。

Rory Kelleher(NVIDIAライフサイエンスのグローバルビジネス開発責任者)は、生成AIとLLMが生物学と化学の科学的発見を変革する可能性を信じています。生命科学理解用に使用される他のLLMと比較して、nach0は分子タスクの実行で明確な利点を示し、ChatGPTを上回っています。

nach0の機能は、2つのケーススタディで試されました。1つの研究では、モデルが糖尿病に対する潜在的な治療活性を持つ分子を成功裏に生成しました。もう1つの研究では、nach0が、InsilicoのChemistry42 AI医薬品設計プラットフォームで、15分で生成し、30分でスコア付けされたプロンプトを満たす8つの分子を生成しました。

nach0が進化するにつれて、人間の監督が少なくなり、薬剤化学者のための有望な治療オプションを生成および検証する能力を持つようになることが予想されています。医薬品発見と開発において生成AIを活用する先駆者であるInsilico Medicineは、様々な疾患のための新規治療資産の追求においてAI技術の限界を押し広げ続けています。

参考文献:
Livne, M., et al. (2024). nach0: Multimodal Natural and Chemical Languages Foundation Model. Chemical Science. doi.org/10.1039/d4sc00966e.