Anthropic、AIのサイバー悪用対策とジェイルブレイク重大度評価の枠組みを公表

2026年7月3日

Anthropicは2026年7月2日、大規模言語モデル「Claude Fable 5」の再展開にあわせ、サイバーセキュリティ分野での悪用防止策と、脱獄（ジェイルブレイク）の深刻度を測る新たな評価フレームワークの詳細を公表した。防御にも攻撃にも転用しうる二重用途技術であるサイバーセキュリティ領域で、どこに線を引くかという難題に、具体的な分類基準と数値化された評価軸で応じた内容となっている。

発表によれば、Fable 5はサイバーセキュリティに関わる用途を四段階に分けて扱う。ランサムウェアや防御回避技術、マルウェア開発、インターネットバックボーンへの攻撃といった用途はブロック対象とし、ペネトレーションテストやエクスプロイト開発、産業制御システムの評価など専門知識を要する用途も高リスクな二重用途として同様にブロックする。一方、オープンソースインテリジェンスやSSL/TLSのプロトコルテストといった用途は低リスクな二重用途として監視や条件付き制限にとどめ、セキュアコーディングやデバッグ、インシデント対応などは無害な用途として監視を伴いながら許可する。

あわせて公表された脱獄の重大度指標「CJS」は、既存の攻撃手段に対する能力向上度、単一の標的にとどまるか複数の攻撃類型に及ぶかを示す機能の幅広さ、脱獄手法を実際の攻撃に転用する手間を示す兵器化の容易性、その手法がどれだけ出回っているかを示す発見の容易性という4つの軸をそれぞれ採点し、合計点に応じて情報的から重大までの5段階に位置づける仕組みになっている。

Log4Shellの事例で変わる評価

Anthropicが具体例として挙げたのが、2021年12月に発覚した脆弱性「Log4Shell」だ。開示前の段階で非専門家がこれを自動検出できたと仮定した場合、能力向上度・幅広さ・兵器化の容易性・発見の容易性のいずれも高い点数となり、最高位の「重大」に相当するという。ところが同じ検出能力でも、脆弱性が公開されスキャナーで誰でも検出可能になった現在では、既存手段に対する能力向上がないとみなされ、評価は最低位の「情報的」まで下がる。フレームワークが示す重大度は固定的な値ではなく、その時点で世の中に出回っている手段を基準に測り直されるものだという。

Anthropicはこれと並行して、脱獄手法の報告を受け付けるプログラムをHackerOne上に開設したことも明らかにした。専用の問い合わせ窓口（cyber-safeguards@anthropic.com）も設け、Glasswing、Amazon、Microsoft、Googleを含む複数の企業と協力体制を敷いているという。

タグ付け処理あり:Anthropic

illumina

Anthropic、AIのサイバー悪用対策とジェイルブレイク重大度評価の枠組みを公表

Log4Shellの事例で変わる評価

Google、英国のAI職場利用率が1年で34%から73%に倍増と報告――「AIトレイルブレーザー」は昇進率84%高

Related Posts

Google、英国のAI職場利用率が1年で34%から73%に倍増と報告――「AIトレイルブレーザー」は昇進率84%高

OpenAI、データインフラの18年前のバグを修正――「疫学的アプローチ」で2つの無関係な障害を切り分け

OpenAI、計算生物学向けベンチマーク「GeneBench-Pro」を発表――GPT-5.6 Solが最高28.7%のパス率を達 ...