香港理工大学による先駆的な研究により、大規模な言語モデルに感覚入力を取り入れることで、人間の複雑な概念を理解する能力が大幅に向上し、人間の認知能力に近づくことが明らかになりました。
香港理工大学(PolyU)が率いる研究者らは、感覚や運動の入力が強化されると、大規模言語モデル(LLM)が人間に似た複雑な概念的知識を形成できることを明らかにした。
この研究は、シン・ワイ・キン財団人文科学・テクノロジー教授であり、理工大学人文科学部の学部長でもあるリー・ピン氏が主導し、法学修士課程と人間の概念表現の類似点を調査した。
調査結果、 公表 Nature Human Behaviour誌に掲載された研究によると、言語のみを訓練されたLLMには限界がある一方、感覚入力と統合されたLLMは人間の認知に似た、より微妙な理解を示すことが示唆されている。
ChatGPT(GPT-3.5、GPT-4)やGoogleのPaLM、Geminiといった最先端のLLMのデータと人間が生成した単語評価を比較した本研究では、LLMは非感覚運動的側面では人間の理解とよく一致するものの、感覚や運動関連の概念では理解が困難であることが明らかになりました。これは、AIモデルの改良において感覚グラウンディングが不可欠であることを示唆しています。
「言語のみを訓練した法学修士課程と、言語と画像や動画などの視覚入力の両方を訓練した法学修士課程の両方が利用可能であることは、感覚入力が人間の概念形成にどのような影響を与えるかを研究するためのユニークな環境を提供します」とリー氏はニュースリリースで述べた。「私たちの研究は、マルチモーダル学習、つまり概念や知識の学習と形成において、複数の次元からの情報を同時に統合する人間の能力の潜在的な利点を実証しています。」
この研究の意義は、将来のAI開発への潜在的な応用にあります。マルチモーダル学習の進歩により、AIシステムはデータの解釈から物理的な動作の実行まで、より人間に近いタスクを実行できるようになります。
研究者らは、ヒューマノイドロボットによる統合感覚入力を備えた将来のLLMが、自律ロボット、自然言語処理、認知コンピューティングなどの分野に革命を起こす可能性があると主張している。
「LLMにおける埋め込み空間の滑らかで連続的な構造は、あるモダリティから得られた知識が他の関連するモダリティに転移できるという私たちの観察の根底にあるのかもしれません。これは、先天性盲人と健常者が一部の領域で類似した表象を持つ理由を説明できるかもしれません。この点において、LLMの現在の限界は明らかです」とLi Ping氏は付け加えました。
この研究は、より洗練された人間のような人工知能を実現する上でのマルチモーダル入力の役割を強調し、AI技術の進歩に向けた明確な道筋を示しています。
「これらの進歩により、LLM は人間の認知の複雑さと豊かさを反映する具体化された表現を完全に捉えることができるようになる可能性があり、そうなれば LLM の表現におけるバラは人間のバラと区別がつかなくなるでしょう」と Li 氏は結論付けました。
この研究の共著者には、オハイオ州立大学、プリンストン大学、ニューヨーク市立大学の専門家が含まれている。
出典: 香港ポリテクニック大学
