UNCのAIツールが世界中の植物コレクションのデジタル化を加速

ノースカロライナ大学チャペルヒル校の新たな研究によると、高度なAIは植物標本の採取場所を人間に近い精度で特定できるようになり、膨大な自然史コレクションのデジタル化にかかる時間とコストを大幅に削減できるという。この画期的な進歩により、気候変動や生物多様性の喪失を研究する科学者は、数十億もの記録にアクセスできるようになる可能性がある。

ノースカロライナ大学チャペルヒル校が主導した新たな研究によると、人工知能が世界の自然史コレクションのデジタル化における最大のボトルネックの一つをついに解消する可能性があるという。

研究者たちは、大規模言語モデル(LLM)と呼ばれる高度なAIツールを使うと、従来の方法に比べてほんのわずかな時間とはるかに低いコストで、ほぼ人間に近い精度で植物標本が最初に収集された場所を特定できることを発見した。

ジオリファレンスと呼ばれるこのプロセスは、標本ラベルに記された曖昧で時代遅れの位置情報を、地図上の正確な座標に変換するものです。これは、生物多様性、気候変動、生態系の変化を研究する科学者にとって、物理的な標本シートを利用可能なデジタルデータに変換するために不可欠です。

UNCチームは、LLMがこのタスクをうまく処理しただけでなく、標準的な手法よりも優れた性能を発揮したと報告しています。テストでは、モデルは10キロメートル未満の誤差で標本の地理参照を行い、既存のツールや手動ワークフローよりもはるかに高速かつ低コストで作業しました。

ノースカロライナ大学生物学部の博士研究員で第一著者のYuyang Xie氏は、この研究は博物館や植物標本のデジタル化における長年のボトルネックをターゲットにしていると語った。

「私たちの研究は、大規模言語モデルが植物コレクションのデジタル化における最大のボトルネックの一つをどのように克服できるかを探求しています」と謝氏はニュースリリースで述べた。「私たちは、これらのツールを地理参照に利用する先駆者であり、植物標本のデジタル化を加速させ、生態学研究の新たな可能性を切り開く画期的な進歩となるでしょう。」

世界中で推定2億から3億点の植物標本がキャビネットや金庫に保管されています。そのうち、利用可能な空間データを用いて完全にデジタル化されているのはごくわずかです。このギャップは、科学者が生物多様性の喪失を追跡し、気候変動に伴う種の移動を監視し、生態系が時間とともにどのように変化しているかを分析する能力を制限しています。

座標がなければ、たとえ数十年または数世紀前に収集されたものであっても、多くの標本は現代のデータに基づく研究では本質的に見えなくなります。

従来のジオリファレンスは時間がかかり、手間がかかります。手書きのラベル、歴史的な地名、あるいは曖昧な道順を専門家が解釈し、専用のソフトウェアと地図を用いて座標を推定する必要があることがよくあります。品質管理には複数回の審査が必要となる場合もあります。

対照的に、LLMは自然言語を読み取り解釈するように設計されています。UNCチームは、これらのモデルが乱雑または曖昧なラベルテキストを解析し、最も可能性の高い位置を推測し、迅速かつ一貫して座標を返すことができることを示しました。

ノースカロライナ大学の生物学助教授で、この研究の責任著者であるシャオ・フェン氏は、最近のAIの進歩によって可能性が大きく変わりつつあると述べた。

「LLMの近年の進歩は、地理参照プロセスを変革し、より高速かつ正確なものにする可能性があります」とフェン氏はニュースリリースで述べています。「これにより、研究者は地球規模の生物多様性分布に関する理解を深める、これまでにない機会を得ることができます。」

LLMは数百万件のレコードに拡張できるため、このアプローチは自然史コレクションのオンライン化に向けた取り組みを劇的に加速させる可能性があります。地理参照の高速化は、保全計画、種分布モデル、気候影響研究に活用される世界規模のデータベースに、より多くの標本を組み込むことを可能にします。

研究、 公表 Nature Plants誌に掲載された論文は、地理参照タスクにおけるLLMの厳密なテストと既存の手法との性能比較を初めて行った研究の一つです。研究者らは、AIツールが人間レベルの精度と同等かそれ以上の精度を達成しながら、時間とコストの両方を削減できることを発見しました。これは、リソースが限られている機関にもメリットがあることを示唆しています。

植物標本館や博物館にとって、この変化は大きな変革をもたらす可能性があります。多くの機関は、従来のワークフローで標本を処理するための人員と資金が不足しているため、デジタル化されていない標本の膨大な未処理分を抱えています。

「この技術により、現在キャビネットに眠っている何百万もの記録を紐解くことができます」と謝氏は付け加えた。「LLMの力により、地球規模の環境問題への取り組みに不可欠な植物標本データを迅速にデジタル化することができます。」 

これらの課題には、侵入種の追跡、脆弱な植物が生き残れる可能性のある気候避難場所の特定、そして過去1世紀にわたる種の分布の変化を記録することなどが含まれます。歴史的標本は、デジタル化され地図化されると、地球上の生命がどのように変化してきたかを明らかにするタイムカプセルとなります。

UNCチームの研究結果は、より広範な可能性を示唆しています。LLMが植物標本の地理参照を信頼性高く行えるようになれば、昆虫や菌類から脊椎動物に至るまで、他の自然史コレクションにも同様のアプローチを適用できる可能性があります。テキストラベルと地域情報を持つコレクションであれば、原理的にはAIを用いて処理することが可能です。

この研究は、AIと従来のキュレーションがどのように連携できるかについて、希望の光となる示唆を与えています。人間の専門家は、難しい事例の検証、稀少または異常な記録の解釈、そして研究課題の導出において依然として不可欠です。しかし、法学修士(LLM)が反復的で時間のかかる作業を引き受けることで、専門家は分析と発見により集中できるようになるかもしれません。

学生や若手科学者にとって、この変化は、より豊富なデータセットへのより迅速なアクセスと、生物多様性や気候に関する大きな疑問に取り組む機会の増加を意味する可能性がある。

UNC の研究者たちは、デジタル化における最も困難な技術的ハードルの 1 つを AI が解決できることを示すことにより、世界の植物コレクションが単に紙に保存されるだけでなく、完全に検索可能で、マップ化可能であり、緊急の環境決定に情報を提供できる未来への扉を開きました。

出典: ノースカロライナ大学チャペルヒル校