最先端材料科学研究:論文に眠る実験データを掘り起こす

Starrydata-KenjiTashiro
1 / 1
Starrydata-KenjiTashiro

プレスリリース詳細 https://kyodonewsprwire.jp/release/202601062001

あなたにオススメ

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。詳細は上記URLを参照下さい。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。

大規模言語モデルで材料特性データベースの構築を加速

2026年1月8日

- 広告 -

Science and Technology of Advanced Materials: Methods

国立研究開発法人物質・材料研究機構(NIMS)内のSTAM編集室では、NIMSとスイスのEmpaが刊行を支援するオープンアクセスジャーナル「Science and Technology of Advanced Materials: Methods」誌(https://www.tandfonline.com/stam-m)から論文を厳選して紹介しています。

2026年1月5日に発表された論文の解説を、2026年1月8日に配信いたします。

【画像:https://kyodonewsprwire.jp/img/202601062001-O1-FQRn9yh8

図の説明:研究者と人工知能が協力して、世界の論文から材料科学の実験データを集めてデータベース化(イラスト: Kenji Tashiro. Instagram: ripplemarkmaker)

スマートフォンや自動車など、現代社会を支えるテクノロジーは多様な機能材料に支えられている。このため材料科学者らは新材料の開発と改良に取り組んでいるが、材料特性の予測は一筋縄ではいかない。データ科学はその変革に向けた鍵であり、人工知能を用いた新たなツールが、世界の材料特性データの探索・収集・管理を加速すると期待される。

機能材料と特性の関係は複雑であり、組成や合成方法のわずかな違いが電子の状態や微細組織に影響を与え、全く異なる特性を示すことも珍しくない。このため理論モデルだけでは予測が難しく、研究者や技術者の長年の経験に基づく勘が大きな役割を果たしてきた。

機械学習は、理論ではなく経験的な傾向を学習できる技術である。材料科学の実験データを機械学習すれば、そのような勘をコンピュータで再現できる可能性がある。ChatGPTなど、今や多くの人の日常を支える大規模言語モデル(LLM)は、背景知識や文脈を踏まえた柔軟な情報抽出ができる。このため、論文という複雑な情報源を構造化されたデータへと変換する作業も自動化できる可能性がある。これにより実験データの大規模データセットを構築できれば、その俯瞰による研究のインスピレーションの獲得や、機械学習による経験的傾向に基づく特性予測の実現が期待できる。

物質・材料研究機構(NIMS)・筑波大学・理研の桂ゆかりらのチームはこの可能性に注目し、論文から収集した材料特性データベースStarrydataの構築を加速する新たな二つのツールを開発した。この成果は最近、『Science and Technology of Advanced Materials: Methods』誌に発表された。

「これまでに出版された数百万本の論文のグラフには、過去の研究者たちが集めてきた貴重な実験データが眠ったままになっています」と桂は言う。彼女が2015年に立ち上げたStarrydataプロジェクトでは、論文からのデータ収集を人の手で行い、独自開発のStarrydata2 Webシステムで支援することで、世界に類を見ない情報量の実験データを集めることに成功した。このデータ収集をさらに効率化するのが今回のツールだ。「データ構造を指定してLLMに指示すると、幅広い分野の論文PDFの文章から、図表や試料の情報を的確かつ網羅的に抽出できることがわかりました」

桂はさらに「論文PDFへの人工知能の使用を制限している出版社も多いので、現在はオープンアクセス論文を対象とする仕様で開発しています」と付け加えた。

一つ目のツール「Starrydata Auto-Suggestion for Sample Information」は、材料分野ごとにあらかじめ設計したデータ項目に対して、論文中のテキストを読んで入力内容の候補を提案する機能であり、Starrydata2 webシステムにすでに搭載されている。ユーザーが論文の概要や実験方法のテキストをペーストすると、それがOpenAIのGPTに送信され、各項目の入力欄の下に候補の英文が自動で表示される。

二つ目のツール「Starrydata Auto-Summary GPT」は、ユーザーがアップロードしたオープンアクセス論文のPDFを丸ごと解体する形で、論文中に登場するすべての図、表、試料の説明を、自動でJSON形式のデータにまとめる機能である。JSONデータの出力まではChatGPTのカスタムGPT機能で行い、得られたデータを、Webブラウザ上で表としてわかりやすく閲覧できる。このデータは今のところはStarrydataデータベースに直接収録しないが、データ収集者が目的のデータを素早く探して情報を入力する作業を飛躍的に加速できている。

「論文は著者の主張を伝えるために組み上げた論理ですが、それを解体して実験データの形に戻すことで、他の研究者も研究に利用できます」と桂は言う。「そのように、あらゆる材料科学分野の実験データがデジタル形式で共有されて、俯瞰できるようになる未来を目指しています。」

Starrydataでは、現在は熱と電気を変換する熱電材料や磁石など、一部の材料科学分野しかデータベース化を進められていないが、新材料開発に使えるオープンデータセットとして、世界のトップ研究者たちを中心に活用が始まっている。このような大規模実験データの可能性がより広く認識され、論文データ収集という研究の形が科学コミュニティに根付くことを目指して研究を進めている。

論文情報

タイトル:Development of LLM-assisted data curation tools for the Starrydata materials science database

著者:Yukari Katsura*, Tomoya Mato, Yu Takada, Eiji Koyama, Dewi Yana, Atsumi Tanaka & Masaya Kumagai

* Center for Basic Research on Materials, National Institute for Materials Science (NIMS), Tsukuba, Japan (E-mail: KATSURA.Yukari[at]nims.go.jp)

引用:Science and Technology of Advanced Materials: Methods Vol. 5 (2025) 2590811

最終版公開日:2026年1月5日

本誌リンク https://doi.org/10.1080/27660400.2025.2590811(オープンアクセス)

著者連絡先

桂 ゆかり

物質・材料研究機構 主任研究員

筑波大学 准教授

理化学研究所 客員研究員

KATSURA.Yukari[at]nims.go.jp

共同通信PRワイヤー 最新記事