Member-only story
言語モデルでバイアスと戦う方法:AI倫理の革命
ChatGPT用の究極のAIバイアス検出技術と画期的なバイアス対策プロンプトを発見
言語モデルは有害なバイアスを促進することで悪名高いですが、最近の記事によれば、AIラボAnthropicの画期的な研究が、これらのバイアスと自分自身で戦う潜在能力を解き放つことができたかもしれません。この驚くべき実験とそのAI倫理の未来に対する影響を探求する準備をしてください。
実験:バイアスの獣を飼い慣らす
アマンダ・アスケルとディープ・ガングリは、バイアスという言葉を定義せずに、単に大きな言語モデルに偏りのない出力を生成するように依頼することで、その応答が変わるかどうかを調べることを目的としていました。彼らは、人間のフィードバックからの強化学習(RLHF)を用いて、異なるサイズと訓練レベルのいくつかの言語モデルを、バイアスやステレオタイプを測定するために設計された3つの異なるデータセットでテストしました。
テスト:AIのバイアスを測定する
多肢選択バイアステスト:このテストでは、多肢選択問題を通じて、モデルの年齢、人種、およびその他のカテゴリーに関するバイアスを評価しました。
性別-職業テスト:2番目のテストでは、特定の職業にいる個人の性別を想定するモデルの確率を評価しました。
法学部入学者に対する人種差別テスト:最後のテストでは、言語モデルが法学部入学者を選択する際の人種に基づくバイアスを調査しました。
結果:AIの驚くべき自己修正能力 研究者たちは、モデルにステレオタイプに頼らないように促すだけで、その出力に大幅なプラスの効果があることを発見しました。
特に、十分なRLHFトレーニングを受け、220億以上のパラメータを持つモデルでは効果が顕著でした。驚くべきことに、一部のモデルでは、出力において肯定的な差別さえ示しました。
謎:AIがどのように自己修正するか
モデルの自己修正の正確な理由はまだ明らかではありませんが、研究者たちは、モデルが大きくなるにつれて、より広範なトレーニングデータセットにアクセスできるようになり、それによってバイアスのある行動が含まれると考えています。ただし、これらのデータセットには、おそらくRedditやTwitterなどのソーシャルメディアプラットフォームでの議論の多い投稿に対する反応として、バイアスに対抗する人々の例も含まれている可能性があります。人間のフィードバックは、RLHFトレーニングにおいて、偏りのない応答が求められたときに、モデルがこれらのより弱いシグナルを増幅するのを助けます。