東京大学 松尾・岩澤研究室、医療現場のDXの実現を目指し日本語版医療特化型LLMを開発し、対話型AIサービスを公開

2026/03/05

発表のポイント

日本語医学知識を付与した医療特化型LLMを開発し、2025年医師国家試験ベンチマークで正答率93.3%を達成。
電子カルテデータ標準化を想定したユースケース検証では、標準名称への変換タスクにおいて国内外のLLMの性能を上回った。
本成果により、医療データ標準化や業務効率化の自動化が進み、医療現場のDX推進や創薬・治験の高度化を通じて、日本の医療・創薬力向上への貢献が期待される。

 

fig2

電子カルテデータ標準化の自動化の概念図

 

概要

東京大学大学院工学系研究科技術経営戦略学専攻/附属人工物工学研究センター 松尾・岩澤研究室(以下、松尾研)が、さくらインターネット株式会社、株式会社ELYZA、株式会社ABEJA、理化学研究所および医療機関と連携して開発した日本語版医療特化型LLMを研究目的限定で研究者向けに提供することをお知らせします。

本モデルは、2025年の医師国家試験ベンチマークにてOpenAI社のOpenAI-o1GPT-4oを上回る93.3%の正答率を記録しました。さらには、臨床現場における具体的なユースケースを想定し、LLMによる電子カルテデータ標準化の自動化の検証も実施しています。本研究は、戦略的イノベーション創造プログラム(SIP)統合型ヘルスケアシステムの構築(JPJ012425)の補助を受けて実施されたものです(1

これらの成果は、国内のAI技術の高さを証明するとともに、人手不足や業務の複雑化といった課題を抱える医療現場のデジタルトランスフォーメーション(DX)を大きく前進させる可能性を秘めています。以下では、本取り組み内容の詳細について紹介します。

 

発表内容

日本語版医療特化型LLMの開発:

松尾研は、オープンLLMであるQwen-2.5-72B-Instructをベースモデルとし、upcyclingによるモデルサイズ拡張や医学論文等の医学系コーパスを用いた継続事前学習と指示学習を重ねることで、日本語医学知識を付与したWeblab-MedLLM-Qwen-2.5-109B-Instructを構築しました。図1で示すように、本モデルは既存モデルが保持していない日本国内の医療制度に関する知識を備えており、既存モデルが誤答してしまう問題にも正しく答えることが可能です。表1のとおり、本モデルは2025年医師国家試験ベンチマークで正答率93.3%を記録しており、これは同ベンチマークにおいてOpenAI社のGPT-4oOpenAI-o1を上回るトップクラスの性能を示しています。

さらに、外部の知識データベースを参照するRAGRetrieval-Augmented Generation)や多数決によって回答精度を高めるmajority votingなどの技術を組み合わせることで、正答率は最大で約98%にまで向上することも確認されました(ただし、図の参照を必要とする問題や計算問題などを除く)。

これらの結果から、医学系コーパスを用いた追加学習を実施することで、オープンLLMに日本語の医学知識を付与し、医師国家試験などの高度な専門知識を要する問題に対しても極めて高い精度で回答できることが明らかになりました。

 

fig1

1:医師国家試験の設問と解答の具体例

 

12025年医師国家試験の正答率比較表

table1

 

ユースケース検証:

実際の医療現場を想定した電子カルテデータ標準化のユースケース(図2)を想定し、感染症・検査情報の名称を厚労省の定める標準名称に変換するタスクにも取り組みました。その結果、本モデルは図3のように既存モデルでは回答が難しい問題に対しても、獲得した医学知識に基づいて正しい標準名称を導出可能であることが示されました。表2のとおり、モデルはF1スコア85%の精度で標準名称への変換が可能であり、標準化のタスクにおいても国内外のLLMの性能を大きく上回っています。

これらの結果から、医学知識を付与したLLMによって非常に高い精度で電子カルテデータ標準化が実現可能であり、LLMによる標準形式への自動マッピングによって医療現場のDXの実現に貢献できる可能性があることが示されました。

 

fig2

2:電子カルテデータ標準化の自動化の概念図

 

fig3

3:感染症・検査情報標準化の設問と解答の具体例

 

2:感染症・検査情報の標準名称への変換精度の比較表

table2

 

今後の展望:

2025年度のNEDO事業(2)においては、SIPでの取り組みを発展させ、複数の医療機関の電子カルテシステムと連携して動作するLLMエージェントとその安全性を評価する仕組みの構築を目指す予定です。これによって、労働集約的に行われている治験患者の探索やレジストリの構築を自動化し、製薬企業が必要とするデータを任意形式で提供することが可能となり、日本の創薬力の向上につながると期待されます。

 

本モデルの利用について

松尾研では研究成果の評価、研究のさらなる推進に貢献するため、開発したモデルを利用できる対話型AIサービスを提供します。なお、本サービスの提供については、予告なく変更または終了する場合がございますので、あらかじめご了承ください。

 

公開期間

2026352026831

 

対話型AIサービス上での利用

本モデルは、松尾研が提供する対話型AIサービス上で利用可能です。本サービスは、さくらインターネット株式会社の「さくらのAI Engine 3)」上にデプロイした本モデルをチャットアプリから呼び出せるようにしたものです。

 

医学知識を学習させたモデルであるため、医学試験の問題や医学知識に関する質問を入力して確認していただくことが可能です。なお、本プログラムは診断行為、診療行為および治療行為に用いることはできません。

 

質問の例:

・「介護保険による機能訓練で正しいのはどれか。 a:介護福祉士が実施する。 b:利用者は減少している。 c:医師の指示が必要である。 d:家事動作訓練が含まれる。 e:特定機能病院で実施される。 a,b,c,d,eの中から1つ選びなさい。考察した後、最後に[ans][/ans]タグで囲った回答を出力しなさい。ansタグ内には選択肢の文字のみを出力しなさい。」

・「HPVワクチンは安全ですか?」

 

本サービスの利用を希望される方は、利用規約をご確認の上でご利用ください。今後の研究プロジェクトの推進のため、本サービス上に入力されたプロンプト、プロンプトに対応するモデルの出力結果、モデルの出力結果に対応するフィードバックのログなどについては、本プログラムの学習に利用される可能性があることをご了承ください。

 

対話型サービスURL

https://weblab-medllm-qwen-25-109b-instruct.medllm.weblab.t.u-tokyo.ac.jp/

(利用規約はアクセス時に表示されます)

 

松尾・岩澤研究室について

東京大学 松尾・岩澤研究室では、「知能を創る」ことをビジョンに掲げ、ディープラーニングの研究を推進しています。特に、世界モデルやロボット研究、大規模言語モデル、脳×AIに関する研究を進めています。加えて、基礎研究成果を社会に還元することにも注力しており、講義、企業との共同研究、学生起業家の育成支援なども行っています。

 

注釈

(※1)戦略的イノベーション創造プログラム(第3期)「統合型ヘルスケアシステムの構築における生成AIの活用」
https://sip3.jihs.go.jp/news/2024/publicrecruitmentresult.html

(※2AIの安全性確保に関する研究開発・検証等の推進事業/日本語版医療特化型 LLMの社会実装に向けた安全性検証・実証
https://www.nedo.go.jp/koubo/CD3_100392.html

(※3)生成AI向け推論API基盤 「さくらのAI Engine
https://www.sakura.ad.jp/aipf/ai-engine/

 

本取り組みは、戦略的イノベーション創造プログラム(SIP)統合型ヘルスケアシステムの構築(JPJ012425)の補助を受けて実施されました。

 

 

 

プレスリリース本文:PDFファイル