Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

AnthropicのAIシステム、安全性強化の取り組み

Generatived

23/7/27 3:05

AI 研究会社である Anthropic は、AI システムの安全性とセキュリティを測定および強化するために、AI システムに対して「レッドチーム」または敵対的テストを実施してきました。同社は最近、AI システムの内部および外部のセキュリティテストを実施するというホワイトハウスで発表された取り組みに参加しました。リスクを評価し、さまざまなトピックにわたってそのようなテストを実行する反復可能な方法を作成するための「フロンティア脅威レッドチーム」に焦点が当てられています。生物学的リスクに関する最近のプロジェクトでは、AI モデルが近いうちに国家安全保障にリスクをもたらす可能性があることが明らかになりましたが、これらのリスクを軽減するための緩和策は存在します。Anthropic は現在、リスクを確実に特定し、緩和策を構築するためにこの作業を拡大しています。このプロセスには、ドメインの専門家と協力して脅威モデルを定義し、専門家の知識に基づいて新しい自動評価を構築することが含まれます。Anthropic はまた、その調査結果を政府、研究所、その他の関係者と共有しています。Futureの研究は、AI モデルが引き起こす可能性のある潜在的な害を、たとえば検索エンジンと比較して測定することに焦点を当てます。Anthropic はまた、フロンティアの脅威のレッドチーム化を受けていないモデルのリリースの可能性にも備えて準備を進めています。 Anthropic はフロンティア脅威のレッドチーム研究チームを構築しており、その結果を適切な対象者と共有することに前向きです。

出典：Anthropic