ワシントン大学の研究によると、AIは人々が協力型ビデオゲームで遊ぶ様子を観察することで、利他主義といった文化特有の価値観を学習できるという。この研究は、AIシステムがサービスを提供するコミュニティをより適切に反映する未来への期待を示唆している。
人工知能は将来、人々が互いにどのように接しているかを観察し、それを吸収することで、子供たちのようにさまざまな文化に「適応する」ことを学ぶようになるかもしれない。
新しい研究で 公表 ワシントン大学の研究者らは、PLOS One誌に掲載された論文で、AIシステムが人々が協力型ビデオゲームで遊ぶ様子を観察するだけで、利他主義といった文化特有の価値観を学習できることを示した。そしてAIは、学習した価値観を全く異なる状況にも持ち込んだ。
この研究は、AIにおける高まる懸念に対処しています。大規模システムの多くはインターネット全体から収集したデータに基づいて学習されており、特定のグループの価値観を他のグループよりも強く反映する傾向があります。その結果、多くのコミュニティと調和しないツールやチャットボットが生まれる可能性があります。
「多くの文化には独自の価値観があるため、AIシステムに普遍的な価値観をハードコードすべきではありません」と、ワシントン大学ポール・G・アレン・コンピュータサイエンス&エンジニアリング学部教授で、神経工学センター共同所長でもあるラジェシュ・ラオ氏はニュースリリースで述べた。「そこで私たちは、AIシステムが子供たちのように、それぞれの文化の中で人々を観察し、その価値観を吸収することで価値観を学習できるかどうかを調べたかったのです。」
そのアイデアを探求するために、UW チームは意外なトレーニングの場に目を向けました。それは、人気の協力型料理ゲーム「Overcooked」の改良版です。
実験では、白人と自認する成人190人とラテン系と自認する成人110人が、ゲームの特別バージョンをプレイしました。プレイヤーは、できるだけ多くのオニオンスープを調理し、配達する必要がありました。画面には別のキッチンが表示され、2人目のプレイヤーは同じタスクを完了するためにより長い距離を歩かなければならず、明らかに不利な状況でした。
人間の参加者が知らなかったのは、2番目のプレイヤーが実はコンピューター制御のボットだったということです。ボットは助けを求めるようにプログラムされており、人間には選択肢がありました。自分の得点を犠牲にして不利な状況にあるパートナーを助けるためにタマネギの一部を手放すか、タマネギを手元に残して自分の勝利を最大化することに集中するかです。
それぞれの文化グループ(白人とラテン系)は、行動から学習するように設計されたソフトウェアシステムであるAI「エージェント」とペアリングされました。これらのエージェントは、何をすべきかを指示されたり、明確な報酬を与えられたりするのではなく、逆強化学習と呼ばれる手法を用いていました。
標準的な強化学習では、AIに目標が与えられ、その目標に近づくと報酬が与えられます。これは、ポイントを獲得することでテニスのプレーを学習するロボットのようなものです。逆強化学習では、AIは人間や他のエージェントを観察し、その行動の動機となっている目標や価値観を推測しようとします。
研究者たちは、このアプローチは人々、特に子供たちが実際に学ぶ方法に近いと主張している。
ワシントン大学の心理学教授であり、学習・脳科学研究所の共同所長でもある共著者のアンドリュー・メルツォフ氏は、子育てとの直接的な類似点を指摘した。
「親は子供に特定の課題を何度も繰り返しやらせるように教えるだけではありません。むしろ、子供に望む行動を、一般的に模範を示したり、行動したりするのです。例えば、分かち合いや思いやりといった、他者への思いやりを手本とします」と彼はニュースリリースで述べています。「子供たちは、コミュニティや文化の中で人々がどのように行動するかを、ほぼ自然に学びます。彼らが学ぶ人間的価値観は、『教えられる』というより、『身につく』ものなのです。」
チームは、Overcooked のゲームプレイ データを AI エージェントに入力することで、割り当てられた文化グループの人々が自己利益と不利な立場にある人を助けることの選択に直面したときにどのように行動するかを各システムに「観察」させました。
平均して、ラテン系グループの参加者は白人グループの参加者よりも、恵まれない相手を助けることを頻繁に選択しました。AIエージェントはこのパターンを捉えました。その後、彼ら自身がゲームをプレイした際、ラテン系プレイヤーのデータで訓練されたエージェントは、白人プレイヤーのデータで訓練されたエージェントよりも多くのタマネギを配り、観察されたより利他的な行動を反映しました。
AIがゲーム特有の技だけでなく、本当に一般的な価値を学習したかどうかを確認するため、研究者たちは2回目のテストを行った。今回は、AIは別の種類の道徳的判断、つまり困っている人にお金の一部を寄付するかどうかという判断に直面した。
再び、オーバークックドのラテン系参加者のデータで訓練されたエージェントは、より利他的な行動を取り、より多くのリソースを寄付することを選択しました。これは、システムが単に玉ねぎとスープに結びついた戦略ではなく、他者を助けるというより広範な選好を内面化したことを示唆しています。
ラオ氏によると、この結果は、AIが日常の行動から学習することで、特定のコミュニティの価値観をよりよく反映するように調整できることを示す初期段階ではあるが有望な兆候だという。
「AIエージェントに入力する文化固有のデータの量と種類を増やすことで、私たちの概念実証デモはスケールアップしていくと考えています。このようなアプローチを用いることで、AI企業はAIシステムを特定の文化に展開する前に、その文化の価値観を学習するようにモデルを微調整できる可能性があります」とラオ氏は付け加えた。
この研究は 以前のUW研究 ラテン系およびアジア系の家庭で育った19ヶ月児は、他の文化的背景を持つ子どもよりも利他主義的な傾向が強いことが示されています。このパターンをAIに反映させることで、この新たな研究は、機械が人間の発達に見られる価値学習プロセスを限定的に模倣できることを示唆しています。
同時に、研究者たちはこれはまだ第一歩に過ぎないことを強調しています。今回の実験は、2つの文化集団、簡略化されたゲーム環境、そして比較的限定的な利他主義に焦点を当てたものでした。現実世界ははるかに複雑で、多くの文化が重なり合い、相反する価値観や、大きなリスクを伴う意思決定が存在します。
今後の研究では、AI システムが日常生活からのより豊富で複雑なデータにさらされたとき、また公平性、忠誠心、プライバシー、効率性などの競合する価値の間でトレードオフを調整しなければならないときに、逆強化学習がどのように機能するかをテストする必要があるでしょう。
「文化に適応したAIの創造は、社会にとって不可欠な課題です」とメルツォフ氏は付け加えた。「他者の視点を考慮し、社会的な意識を持つシステムをどのように構築できるでしょうか?」
ワシントン大学のチームの答えは、少なくとも現時点では、AIに私たちをより注意深く観察させることです。私たちが何を大切にしているかだけでなく、他者を助けるためにコストがかかる際に実際にどのように行動するかも観察します。このアプローチがスケールすれば、未来のAIは単一のグローバルルールブックを課すことではなく、コミュニティごとに良き隣人であることの意味を学ぶことに焦点を当てるようになるかもしれません。
出典: ワシントン大学
