BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Anthropicの「AI顕微鏡」が大規模言語モデルの内部構造を探る

Anthropicの「AI顕微鏡」が大規模言語モデルの内部構造を探る

原文リンク(2025-04-13)

Anthropicが最近発表した2つの論文は、大規模言語モデルの内部で起こるプロセスを明らかにしようとする試みで、解釈可能な概念を特定し、それを言語化する計算「回路」に結びつける方法と、ハルシネーション、プランニング、その他の主要な特徴を含むClaude Haiku 3.5の重要な挙動を特徴付ける方法を探求している。

大規模な言語モデルの能力の背後にある内部メカニズムはまだ十分に理解されていないため、彼らが問題を解決するために使用する戦略を説明したり解釈したりすることは困難である。これらの戦略はモデルが生成する各単語を支える数十億の計算に組み込まれている-それらは依然としてほとんど不透明なままである、とAnthropicは述べている。この隠された推論層を探るために、Anthropicの研究者たちは「AI顕微鏡」と呼ぶ新しいアプローチを開発した

私たちは長年にわたり思考する生物の複雑な内部を研究してきた神経科学の分野からインスピレーションを得て、活動のパターンと情報の流れを特定できる一種のAI顕微鏡を構築しようとしています。

非常に単純化して言えば、AnthropicのAI顕微鏡は研究対象のモデルを置き換えモデルに置き換えること、例えばモデルのニューロンを解釈可能な概念を表す疎活性機能に置き換えるようなものだ。例えば、そのような機能のひとつはモデルが状態の中心的な要素を生成しようとする際に活性化することがある。

当然ながら置き換えモデルは必ずしも元のモデルと同じ出力を生成するとは限らない。この制約に対処するため、Anthropicの研究者は調査したいプロンプト毎に、誤差項や固定された注意パターンを置き換えモデルに組み込んで作成したローカル置き換えモデルを使用している。

「ローカル置き換えモデル」は元のモデルとまったく同じ出力を生成しますが、できる限り多くの計算を特徴に置き換えます。

初期プロンプトから最終出力まで、ローカル置き換えモデル内での特徴の流れを説明する最終ステップとして、研究者たちは寄与グラフを作成した。このグラフは出力に影響を与えないすべての特徴を取り除いて作成される。

これはAnthropicのAI顕微鏡の非常に大まかな概要であることに留意されたい。詳細については、上記リンク先のオリジナル論文を参照されたい。

このアプローチを用いて、Anthropicの研究者たちはいくつかの興味深い結果にたどり着いた。多言語能力について言えば、彼らはClaudeが特定の言語に翻訳する前に概念を生成するために使用する、ある種の普遍的な言語の証拠を発見した。

私たちはClaudeにさまざまな言語で「小さいの反対は何か」を尋ねることによってこれを調査し、小さいと反対に関する概念と同じコアとなる特徴が活性化し、大きさの概念を引き起こし、それが質問の言語に翻訳されることを発見しました。

もうひとつの興味深い発見は、LLMは「あまり考えずに」単語ごとにアウトプットを構築するという一般的な理解に反するものだ。その代わりに、Claudeがどのように韻を生成するかを研究すると、実際に前もってプランを立てていることがわかった。

2行目を書き始める前に「grab it」と韻を踏んでいる可能性のある単語を「考え」始めていました。そしてこれらのプランを念頭に置いて、プランした単語で終わるように行を作成します。

Anthropicの研究者たちはなぜモデルが情報をでっち上げる、つまりハルシネーションを作る上げるのかについても掘り下げている。ハルシネーションは常に次の推測を生成しなければならないことから、ある意味、モデルの動作原理に内在するものだ。これはモデルがその傾向を抑えるために特定のハルシネーション抑制トレーニングに依存しなければならないことを意味する。言い換えれば2つの異なるメカニズムが存在している:ひとつは「既知のエンティティ」を特定するメカニズム、もうひとつは「未知の名前」や「答えられない」に対応するメカニズムだ。それらが正しく連携することでハルシネーションからガードしている:

このような誤作動は、Claudeが名前を認識してもその人物について他に何も知らない場合に発生しうることを示しています。このような場合、「既知のエンティティ」の特徴の活性化が持続し、デフォルトの「知らない」特徴を抑制してしまうことがあります-この場合は誤って。質問に答える必要があると判断した時点で、モデルはもっともらしい作話を進めます:残念ながら真実ではない回答を。

Anthropicの研究者たちが探求している他の興味深い次元は、暗算、答えにたどり着くまでの推論を説明する思考の連鎖の生成、多段階推論、ジェイルブレイクに関するものである。詳細はAnthropicの論文で確認できる。

AnthropicのAI顕微鏡は解釈可能性研究に貢献し、最終的にはモデルがどのように推論を生成するかを理解し、それらが人間の価値観と一致していることを確認するのに役立つツールを提供することを目指しているしかしこれはまだ初期段階の取り組みであり、モデル全体の計算のごく一部しか捉えることができず、数十語程度の短いプロンプトにしか適用できない。InfoQは今後もLLMの解釈性に関する新たな知見が得られ次第、報告し続ける予定だ。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT