MENU

Claude MythosとGPT-5.5の詳細比較:脆弱性開発の新たな視点

執筆:白米元気

カーネギーメロン大学で行われた研究によって、AIエージェントが実世界の脆弱性を利用する能力が新たに測定されることとなりました。この研究では、特にClaude MythosがGPT-5.5に比べて非常に優れた結果を示しましたが、その一方でコストが非常に高いことも明らかになっています。

目次

Claude MythosとGPT-5.5のベンチマーク結果詳細

カーネギーメロン大学で開発された新しいベンチマークは、GoogleのJavaScriptエンジンV8におけるAIエージェントの脆弱性利用能力を評価するために設計されています。このベンチマークでは、単にバグがトリガーされるかどうかという点だけでなく、任意のコード実行に至るまでの進捗を5つの段階でスコアリングし評価します。V8はChromeやEdge、Node.js、Cloudflare Workersなど、多くのシステムで広く使用されているため、この評価は非常に重要です。Anthropic社のClaude Mythos Previewは、平均スコア9.90を記録し、41の脆弱性中21で最高段階に達しました。一方で、OpenAI社のGPT-5.5は5.51ポイントという結果に留まり、最高段階にはわずか2つしか到達できませんでした。自律モードにおいてもMythosは9.55ポイントを取得しましたが、GPT-5.5は4.30ポイントという低いスコアでした。他のモデルについては全くコード実行(T1)には至らず、その能力には限界があることが示されています。

高コストとその影響:AI脆弱性開発能力の未来展望

Mythosを122エピソード実行するためには約36,428ドルという巨額な費用がかかります。一方で、GPT-5.5は123エピソードで約3,075ドルという価格設定となっており、このコスト差はおよそ12倍にも及ぶことが分かります。このような高いコストにも関わらず、イギリスのAI安全研究所も最近のテスト結果からMythosがGPT-5.5よりも若干優れていることを確認しています。この価格差は、OpenAIが今後さらなる計算資源を投入することでパフォーマンス差を埋める可能性を示唆しているとも考えられます。ExploitBench共同著者であるSeunghyun Lee氏は、Mythosのトランスクリプトを一つずつレビューした結果、このモデルが「かなり有能なブラウザ/JSエンジンセキュリティ研究者」のように機能することを指摘しました。具体的には、Mythosは以前人間研究者によって複雑すぎるとされていた攻撃技術を独自に開発しました。また、人間研究者が1年以上解決できなかった脆弱性(CVE-2024-0519)も再現することに成功しています。このベンチマークでは、新しい欠陥を見つける能力や、本格的な攻撃用に脆弱性を武器化する能力についてはまだ測定されていないため、その点についても今後の研究課題として注目されます。

まとめ:今後の研究への期待と影響

Claude MythosとGPT-5.5の比較から得られた知見は、AIエージェントによるブラウザ脆弱性開発能力に関する新たな洞察を提供しています。特にMythosは高コストながらも優れた性能を示しており、このことは今後の研究や実務への影響が期待されます。AI技術が進化する中で、このような比較研究がさらなる技術革新につながることが期待されています。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

はじめまして、「白米元気」と申します。

ノースキルで副業をスタートし、2ヶ月で月10万円を達成。
その後も毎日ChatGPTとにらめっこしながら、
「どうやったら仕組みで稼げるのか?」を考え続けてきました。

そんな中出会ったのが「LLM無職」です。
AIと仕組みを作り、AIに仕事をさせる。
副業や働き方そのものを実験していく——そんな挑戦をしています。

このブログでは、わたしのLLM無職への道のりの途中で
AIを活用した具体的な方法や工夫、日々の実践内容を紹介。
ときどき家族の話もまじえながら、
読んでくれた方が「なんかおもしろそう!」と思えるような、
リアルで実験的な情報をお届けしていきます。

コメント

コメントする

目次