AI はさまざまな分野で優れた能力を発揮しているにもかかわらず、専門家レベルの歴史知識に関してはまだ不十分で、最高のパフォーマンスを発揮するモデルでも精度はわずか 46% にとどまっています。この調査は、歴史研究における AI の限界と将来の可能性を浮き彫りにしています。
人工知能チャットボットは、顧客サービスから法律研究までさまざまな分野に革命をもたらしましたが、新たな発見は、これらのシステムが複雑な歴史知識を扱うのにまだ苦労していることを示唆しています。複雑性科学者とAI専門家のチームが最近、博士レベルの歴史問題でChatGPT-4を含む高度な言語モデルのパフォーマンスを評価しました。その結果、 PLM platform. バンクーバーで開催された NeurIPS カンファレンスで発表された論文は、歴史認識に大きなギャップがあることを明らかにしました。
複雑性科学ハブ(CSH)の複雑性科学者ピーター・ターチン氏とユニバーシティ・カレッジ・ロンドンの助教授マリア・デル・リオ・チャノナ氏が主導したこの研究では、ChatGPT-4 Turbo、Llama、GeminiなどのAIモデルを、Seshat Global History Databankを使用して開発された厳格なベンチマークと比較してテストしました。ベンチマークには、約600の社会、36,000を超えるデータポイント、2,700を超える学術的参考文献が含まれていました。
「ChatGPTのような大規模言語モデル(LLM)は、いくつかの分野で非常に成功しています。例えば、パラリーガルの代わりを務めることで大きな成功を収めています。しかし、過去の社会、特に北米や西ヨーロッパ以外の社会の特徴を判断するとなると、その能力ははるかに限られています」と、CSHの社会複雑性と崩壊に関する研究グループを率いるターチン氏は述べた。 ニュースリリース.
以前のバージョンからの改善にもかかわらず、最も優れたモデルである GPT-4 Turbo は、大学院生向けに設計された多肢選択式の歴史テストで 46% の精度しか達成できませんでした。これは、ランダムな推測から予想される 25% の精度よりも優れていますが、微妙な歴史的背景を理解する上での AI の限界を強調しています。
「AIチャットボットの方がずっといいと思っていた」と、CSHの外部教員で責任著者でもあるデル・リオ・チャノナ氏は付け加えた。「歴史は事実として見られることが多いが、理解するには解釈が必要なこともある」
この研究で最も驚くべき発見の一つは、AI 機能のドメイン特異性でした。
「この結果は、人工知能がかなり特定の分野に特化していることを示しています。LLM は、ある状況ではうまく機能しますが、他の状況では人間に比べて非常に劣っています」とターチン氏は付け加えました。
パフォーマンスは、時代や地域によって大きく異なりました。AI モデルは、特に紀元前 8,000 年から紀元前 3,000 年までの古代史に関する質問にはより正確に回答しましたが、紀元 1,500 年から現在までの最近の歴史的出来事については、かなり苦戦しました。
また、地理的焦点に基づく精度にも顕著な差があり、OpenAI などのモデルはラテンアメリカやカリブ海地域では優れたパフォーマンスを発揮しましたが、サハラ以南のアフリカではそれほど効果的ではありませんでした。
CSH の常駐科学者であり、論文の筆頭著者であるヤコブ・ハウザー氏は、このようなベンチマークを設定することの重要性を説明した。
「私たちは、これらの法学修士課程の学生が専門家レベルの歴史知識を扱う能力を評価するためのベンチマークを設定したいと考えました。セシャット・データバンクにより、私たちは『一般知識』の質問を超えた答えを出すことができます」と彼はニュースリリースで述べた。
さらにこの研究では、AIモデルは法制度や社会の複雑さといった特定の分野では優れているものの、差別や社会的流動性に関するトピックでは劣っていることも強調された。
「この研究から得られた主な教訓は、法学修士課程は素晴らしいものの、高度な歴史を理解するのに必要な理解の深さがまだ欠けているということです。法学修士課程は基本的な事実を理解するのには優れていますが、より微妙な、博士課程レベルの歴史的調査となると、まだその課題に応えられません」とデル・リオ・チャノナ氏は付け加えた。
今後、オックスフォード大学とアラン・チューリング研究所の専門家を含む研究チームは、データセットを拡大し、ベンチマークを改良して、より多様で複雑な歴史的疑問を取り上げることを目指しています。
「私たちは、さまざまな地域、特に南半球からの追加データポイントを統合することで、ベンチマークを改良し続ける予定です」とハウザー氏は付け加えた。「また、o3などのより最近のLLMモデルをテストして、この研究で特定されたギャップを埋めることができるかどうかを確認したいと考えています。」
これらの調査結果は、歴史家と AI 開発者の両方にとって重要な洞察を提供し、改善の余地と歴史研究における AI のより良い統合の可能性を浮き彫りにしています。