ノースカロライナ州立大学の研究者らは、たとえ未知の相関関係であってもそれを克服する新しい AI 技術を開発しました。この画期的な技術により、AI モデルのパフォーマンスと信頼性が大幅に向上する可能性があります。
ノースカロライナ州立大学の研究者らは、人工知能 (AI) モデルのトレーニングにおける最も根深い問題の 1 つである偽の相関関係に対処するための新しい手法を発表しました。これらの相関関係により、AI システムは無関係な情報や誤解を招く情報に基づいて決定を下すことが多く、モデルの精度と信頼性が損なわれます。
「この技術は、AIがどのような偽の相関関係に依存しているかが分からない場合でも使用できるという点で斬新です」と、ノースカロライナ州立大学のコンピューターサイエンス助教授で責任著者のジョン・ウン・キム氏はニュースリリースで述べた。
AI モデルは、トレーニング段階で、単純性バイアスと呼ばれる現象により、重要でない特徴にとらわれることがあります。たとえば、写真に写っている犬を識別するようにトレーニングされた AI は、トレーニング画像の多くが首輪をつけた犬を描いている場合、首輪を主な識別特徴として使用する可能性があります。これにより、首輪をつけた猫を誤って犬と識別するなど、誤った結果が生じる可能性があります。
この問題に対処する従来の方法は、トレーニング データ内の偽の特徴を識別して調整することです。しかし、多くの場合、これらの偽の特徴を正確に特定することは簡単ではなく、不可能でさえあるため、従来のアプローチは効果がありません。
「この研究の目的は、偽の特徴について何も知らなくても偽の相関関係を断ち切ることができる技術を開発することだった」とキム氏は付け加えた。
「データ プルーニング」と呼ばれる新しい方法では、トレーニング データから最も難しいサンプルの小さなサブセットを削除します。これらのサンプルは通常、AI モデルが無関係な情報に頼ることを余儀なくさせ、誤った相関関係を生み出します。
「トレーニング データ セットに含まれるデータ サンプルには、大きなばらつきがある場合があります」と Kim 氏は付け加えました。「サンプルの中には非常に単純なものもあれば、非常に複雑なものもあります。また、トレーニング中にモデルがどのように動作したかに基づいて、各サンプルの「難しさ」を測定できます。」
このアプローチの根底にある仮説は、最も困難なデータ サンプルのごく一部を削除すると、偽の特徴を持つサンプルも削除されるため、重大な悪影響を引き起こすことなくモデルのパフォーマンスが向上するというものです。
研究者らは、この新しい技術が最先端の結果を生み出し、偽の特徴の識別を必要とする既存の方法よりも優れていることを実証した。
査読済みの論文「データプルーニングによる偽相関の除去「」は、24月28日からXNUMX日までシンガポールで開催される国際学習表現会議(ICLR)で発表される予定です。
この画期的な進歩は AI 分野にとって大きな可能性を秘めており、偽の相関関係を個別に徹底的に特定して修正する必要なく、AI モデルの結果の精度と信頼性が向上することが期待されます。
出典: ノースカロライナ州立大学