NVIDIA AI Red Teamは、大規模言語モデル(LLM)がテキストを処理する方法に脆弱性があることを特定した。この脆弱性は、攻撃者がAIシステムの整合性を操作するために悪用される可能性がある。この問題はトークナイザーにある。トークナイザーは、テキストをモデルが理解できるようにトークンIDのシーケンスに変換し、その逆も行う。チームは、トークナイザーの初期化中に十分な検証が行われないと、攻撃者がトークンのエンコードとデコードを変更でき、ユーザー入力とLLM計算の間に矛盾が生じる可能性があることを発見した。

トークナイザーは、一度トレーニングされると、複数のモデルで再利用されることが多く、モデルが更新されても変更されないため、リスクはさらに高まる。これらのトークナイザーはプレーンテキストファイルとして保存されるため、十分な権限を持つ全てのユーザーがアクセスして編集できる。この脆弱性により、攻撃者はトークナイザーの構成ファイルでトークン値を再マッピングでき、LLMがユーザーコマンドを誤って解釈したり、誤った出力を生成したりする可能性がある。

例えば、トークナイザーの.jsonファイルを変更することで、攻撃者は「拒否」という単語に関連付けられたトークンを「許可」という単語に変更し、コマンドの意味を事実上反転させることができる。エンコード攻撃と呼ばれるこのタイプの操作は、システムセキュリティーに重大な影響を及ぼす可能性がある。同様に、デコード攻撃はモデルの出力を変更し、ユーザーや下流のアプリケーションを誤解させる可能性がある。

これらの脅威に対抗するために、NVIDIA AI Red Teamは、トークナイザーの厳格なバージョン管理と監査、ランタイム整合性チェック、入力と出力の両方の詳細なログ記録など、堅牢なセキュリティー対策を実装することを提案している。これらの手順は、LLMのセキュリティーと信頼性を維持し、潜在的な悪用から保護するために不可欠だ。チームはまた、AIセキュリティーに関する認識と教育の重要性を強調しており、敵対的機械学習に関する今後のNVIDIA Deep Learning Instituteコースでさらに詳しい洞察が共有される予定だ。

ソース:NVIDIA Developer Blog