アルゴリズムを利用したフェイク ニュースの検出

出版社:

更新しました:

ミシガン大学の研究者は最近 アルゴリズムを開発した 人よりも偽のニュース記事を識別することができます。 このアルゴリズムは、言語的手がかりを使用して、事実と不正確な物語を区別します。

このアルゴリズムは、主要なニュースアグリゲーターや、Google NewsやFacebookなどのソーシャルメディアサイトが誤情報を見つけて対処するために使用できます。

偽のニュースと戦う

2016選挙の後、「偽のニュース」が政治的流行語となりました。 多くの推測 Facebookに広がったニュース記事を作ったことが、選挙結果に影響を与えました。

過去数年間、虚偽または疑わしい情報を報告しているニュース・ストーリーがソーシャルメディアサイトに広がっています。 クリックベイトや世論を揺るがす意図で作られたこれらの物語は、政治における論争を引き起こし、ソーシャルメディアプラットフォームがウェブサイト上で流通している膨大な量のデータやニュースを規制するのに苦労している。

2016の選挙以来、Facebookは自分たちのプラットフォーム上での偽のコンテンツの配布と闘うための措置を講じてきました。 彼らは有名なユーザーを禁止しようとしました、 右翼の解説者、アレックス・ジョーンズ、での作業 サードパーティのファクトチェッカー, ユーザが不正確なストーリーにフラグを立てられるようにする.

これらの努力はこの点では限定的な成功を収めており、新たな戦略への参入の必要性が高まっています。 偽のニュース記事を自動的かつ正確に識別できるアルゴリズムは、魅力的なツールを提供します。

「最近、この問題に取り組むために研究コミュニティで大きな努力が払われています」と述べました ラダ・ミハルチェUMの電気工学とコンピュータサイエンスの教授であり、このプロジェクトの主任研究員でもあります。

「しかし、偽のニュースをめぐる最近の課題を含め、ほとんどの作業はスタンスの理解と主張と事実の検証に集中しています。」

「私が知っていることから、これは偽のニュース記事全体を自動的に識別することを目的とした最初のシステムであり、通常はオンラインで表示されるため、」と彼女は続けました。

Mihalcea氏によれば、クリックベイトを特定したり、風刺的なものと現実のニュースとの区別を学ぶために、他の研究は限られていました。

現在、偽のニュースサイトは、主に人間の事実チェッカに依存しており、時間がかかります。 オンラインで共有されているニュース記事が圧倒的に流入しているため、これはほとんどの偽の記事が捕らえられていないことを意味します。

自動検証は、ニュースアグリゲータやソーシャルメディアサイトが、人間の規制当局よりも早く、おそらくより正確に、偽のニュース記事を見つけるのに役立ちます。

Mihalcea氏は、自分のチームのアルゴリズムをユーザーとソーシャルメディアサイトの両方で使用してストーリーにフラグを立て、信頼できるメディアと信頼できないメディアを区別することができると述べた。 76パーセントの成功率で偽のニュース記事を識別できることをすでに示しています。これはかなりの誤差の範囲ですが、人間の成功率70パーセントよりも高い値です。

システムを教えてください。

新しいアルゴリズムは、偽のニュース記事を識別するためにかなりユニークなアプローチを取ります。 これは言語分析を使用します。つまり、文法的な構造から句読法の使用およびその言語の複雑さまで、各記事の文章スタイルおよび内容の定量化可能な特性を調べます。

「私たちはまず、偽のニュースの特性を知るために使用できる偽のデータと正当なデータの両方のニュースのデータセットを収集することから始めました」とMihalcea氏は述べています。 「一連の単語、句読点、単語のカテゴリ、構文上の関係など、さまざまな機能を使用してデータを表現します。

「たとえば、そのような機能の1つに、「ストーリー」という単語が表示された回数を反映した数値があり、別の機能には、主語と動詞の関係にある単語が表示された回数などがあります。 その後、これらの代表は学習アルゴリズムに取り込まれ、最終的な分類のためにそれらをどのように重み付けするかが最終的に決定されます。」

Mihalceaは、これらの手がかりは人間が探すものとは異なることが多いと説明しています。 例えば、アルゴリズムは、人間が本能的に探すことができない正確さまたは不正確さを示す特定のキーワードを識別する。

「詐欺について我々が行ったこの研究や他の研究では、例えば、「私」という言葉の使用は真実と関連していることがわかりました」と彼女は言った。 「アルゴリズムでは、「I」と言われる回数を数えてその差を見つけるのは簡単です。

「しかし、人々はそのような計算を自然には行いません。そして、それは簡単かもしれませんが、実際のテキストの理解から彼らをそらすでしょう。」

詐欺を検出するアルゴリズムを訓練するには、偽のニュース記事の重要なサンプルから引き出された一連の言語的手がかりを特定する必要があります。 これは、偽のニュース記事が現れたり消えたりして、多くのジャンルで登場し、しばしば風刺と混同される可能性があるため、難題です。

チームは、自分の偽のニュースソースを作成することで、この問題を回避しました。 彼らは作家の外で実際のニュース記事を取り上げ、それらをリバースエンジニアリングして偽物にするよう雇いました。 作家は、クラウドソーシングのインターネット市場、Amazon Mechanical Turkを使用して募集されました。

Mihalceaは、このプロセスは、実際の世界で偽のニュース記事が典型的にどのように作成されるかと一貫していると指摘しました。

プロセスが終わるまでに、チームは500の本物の偽のニュース記事をアルゴリズムに提供しました。 アルゴリズムがこれらの項目について言語分析を実行した後、彼らはインターネットから引き出された本物の偽のニュース記事を使ってそれをテストしました。

このアルゴリズムは現在、76パーセントレートで不正なストーリーを特定することができますが、これは改善されますが、改善の余地があります。

Mihalceaは、より多くのデータをアルゴリズムに与えることでアルゴリズムがより効果的になるという証拠があることに注目した。 彼らはそれに供給されたデータ量の関数としてアルゴリズムの性能をプロットし、「学習曲線」を作成しました。

「私たちが観察したのは、より多くのデータがパフォーマンスの向上をもたらす可能性が高いことです。そのため、アルゴリズムの有効性を向上させる方法として、偽物と正当性の両方でより多くのニュース記事を収集することが自然な次のステップです」

アルゴリズムの開発におけるチームの仕事は、政治およびメディアの歴史において極めて重要なポイントになります。 アメリカ人の半数近くが今 主にニュースをオンラインで入手する、3分の2以上が 彼らのニュースの少なくともいくつか ソーシャルメディアを通じて。

しかし、インターネットは依然として規制されていない情報源です。

「ソーシャルメディアを含むウェブは、今日の社会で大きな役割を果たしています。人々が意思決定に使用する主要な情報源であるためです」とMihalcea氏は言います。

例えば、最近の政治的な出来事やワクチン接種に関する議論などを考えてみてください。 誰もが「ニュース」をそこに置くことができるこの環境では、人々が信頼できるものとそうでないものとを区別する手段を持つことが重要です。

6か月の無料トライアル

次に、Amazon プライムを半額 – 50% オフでお楽しみください!

トゥンアイ – あなたの教育アシスタント

トゥンアイ

奨学金、大学検索、オンライン授業、経済援助、専攻の選択、大学入学、勉強のヒントなど、私がお手伝いいたします。

大学ネットワーク