May 26, 2023
研究者は、OpenAI の ChatGPT およびその他すべての AI チャットボットのガードレールを簡単にバイパスする方法を発見
こんにちは。7 月の Eye on AI Houston 特別版へようこそ。問題があります。 昨日、カーネギーメロン大学と
こんにちは、7 月の Eye on AI 特別版へようこそ
ヒューストン、問題があります。 昨日、カーネギー メロン大学と AI 安全センターの研究者らが、ガードレール (AI 開発者が言語モデルに課した制限を防ぐために設けた制限) を克服する方法を発見したと発表したとき、多くの人が考えていたことです。たとえば、爆弾製造のレシピや反ユダヤ主義のジョークなど、世の中に存在するほとんどすべての大規模な言語モデルに含まれます。
この発見は、公開アプリケーションに LLM を導入したいと考えている人にとって大きな問題となる可能性があります。 これは、攻撃者がモデルを取得して人種差別的または性差別的な対話をさせたり、マルウェアを作成させたり、モデルの作成者がモデルに行わないよう訓練しようとしたほぼすべてのことを実行させる可能性があることを意味します。 また、LLM を、インターネット上でアクションを実行したりタスクを完了したりできる強力なデジタル アシスタントに変えようと考えている人にとっては、恐ろしい意味合いもあります。 このようなエージェントが悪意のある目的で簡単に乗っ取られるのを防ぐ方法がない可能性があることが判明しました。
研究者らが発見したこの攻撃手法は、OpenAIのChatGPT(GPT-3.5バージョンとGPT-4バージョンの両方)、GoogleのBard、MicrosoftのBing Chat、AnthropicのClaude 2を含むすべてのチャットボットである程度機能した。しかし、このニュースは特に憂慮すべきものだった。 Meta の LLaMA モデルなど、オープンソース LLM に基づいて公開アプリケーションを構築したいと考えている人向けです。
研究者らが開発した攻撃は、攻撃者が重みを含むAIモデル全体にアクセスできる場合に最も効果を発揮するからだ。 (重みは、ニューラル ネットワーク内の各ノードが、接続されている他のノードにどの程度の影響を与えるかを決定する数学的係数です。) この情報を知った研究者たちは、コンピューター プログラムを使用して、追加できるサフィックスを自動的に検索することができました。システムのガードレールをオーバーライドすることが保証されるプロンプトに変更します。
これらの接尾辞は、ほとんどの場合、人間の目にはランダムな文字や意味のない単語の長い文字列のように見えます。 しかし研究者らは、LLM が統計的接続を構築する異質な方法のおかげで、この文字列が LLM をだまして攻撃者が望む応答を提供させるものであると判断しました。 文字列の一部には、ガードレールを脱獄できる可能性があることがすでに発見されている言語が組み込まれているようです。 たとえば、チャットボットに「はい、これは…」というフレーズで応答を開始するように依頼すると、チャットボットが、ガードレールに従うのではなく、ユーザーが尋ねた質問に対して有益な応答を提供しようとするモードに強制的に移行する場合があります。そして、答えを提供することは許可されていないと述べています。 しかし、自動化された文字列はこれをはるかに超えて、より効果的に機能します。
Meta のオリジナル LlaMA 上に構築されたオープンソース チャットボットである Vicuna に対して、カーネギーメロン大学チームは、攻撃の成功率がほぼ 100% であることを発見しました。 Meta の最新の LlaMA 2 モデル(同社によれば、より強力なガードレールを持つように設計されている)に対して、この攻撃方法は、個々の不正行為に対して 56% の成功率を達成しました。 しかし、複数の悪い動作のうちの 1 つを誘発するために一連の攻撃が使用された場合、研究者らは、それらの攻撃のうちの少なくとも 1 つが 84% の確率でモデルをジェイルブレイクすることを発見しました。 彼らは、EleutherAI の Pythia モデルや UAE Technology Innovation Institute の Falcon モデルなど、他の多くのオープンソース AI チャットボットでも同様の成功率を示しました。
研究者自身も少し驚いたことに、同じ奇妙な攻撃サフィックスが、企業が公開プロンプト インターフェイスへのアクセスのみを提供する独自のモデルに対して比較的うまく機能したのです。 このような場合、研究者はモデルの重みにアクセスできないため、コンピュータ プログラムを使用してそのモデルに特化した攻撃サフィックスを調整することができません。
この研究に携わったカーネギー メロン大学の教授の 1 人であるジーコ コルター氏は、攻撃が独自のモデルに移行する理由についてはいくつかの理論があると語った。 1 つは、オープンソース モデルのほとんどが、ユーザーが ChatGPT の無料版で行った公開されている対話に部分的に基づいてトレーニングされ、その後オンラインに投稿されたことです。 このバージョンの ChatGPT は OpenAI の GPT-3.5 LLM を使用します。 これは、これらのオープンソース モデルのモデルの重みが GPT-3.5 のモデルの重みとかなり似ている可能性があることを意味します。 したがって、オープンソース モデル用に調整された攻撃が、ChatGPT の GPT-3.5 バージョンに対してもうまく機能したことは、おそらくそれほど驚くべきことではありません (複数の攻撃が使用された場合、成功率は 86.6% に達しました)。 しかし、Google の PaLM 2 LLM をベースとする Bard に対しても攻撃が成功したという事実 (成功率は 66%) は、何か別のことが起こっていることを示している可能性があります。 (あるいは、Google が激しく否定しているにもかかわらず、実際には Bard の訓練に ChatGPT データを使用したことを示すさらなる兆候かもしれません。)

