執筆:白米元気
GPT-5.5はAIベンチマークで高い評価を受けている一方で、幻覚問題とコストの上昇という課題にも直面しています。特に注目すべきは、API料金が20%増加したことと、幻覚率の上昇です。この点については深く考える必要があります。
最新GPT-5.5の評価と価格の変化
新たに発表されたGPT-5.5は、AIベンチマークにおいて60ポイントという高得点を獲得し、Claude Opus 4.7やGemini 3.1 Pro Previewを3ポイント上回る結果となりました。この新モデルは2026年4月にリリースされましたが、同時にAPI料金も従来のGPT-5.4と比較して約20%増加しています。具体的には、1百万トークンあたりの料金が$5から$30に引き上げられたということです。しかし、人工分析によると、実際にはGPT-5.5は40%少ないトークンを使用するため、コスト上昇は20%程度に抑えられる見込みです。従来のOpus 4.7は同じ価格帯で35%から40%多くのトークンを消費するため、その点ではGPT-5.5が優位性を持っていると言えます。
幻覚問題の深刻さとその影響
一方で、GPT-5.5は幻覚問題に直面しており、その幻覚率はなんと86%に達しています。この数字はClaude Opus 4.7の36%やGemini 3.1 Pro Previewの50%と比較しても非常に高いものです。AIモデルにおいては正確な情報提供能力が求められるため、この点でGPT-5.5はやや後退している印象があります。また、このモデルは「BullshitBench」というベンチマークテストでも45%の反論率を記録しており、この数値も前モデルとほぼ同じです。開発者からのフィードバックによれば、GPT-5.5は事実を記憶する能力では非常に高い精度を示す一方で、不正確な回答をする傾向が強く見られることから、このバランスが今後の大きな課題となるでしょう。
全体的なまとめと今後の展望
この記事では、GPT-5.5の性能やコストについて詳しく解説しました。特に、新しいモデルがトップ評価を得る一方で、高い幻覚率が懸念されていることについても触れました。このような情報を基に、今後どのような改善策が講じられるか注目したいところです。開発者たちがこの課題にどのように取り組むかによって、次世代モデルへの期待が大きく変わる可能性があります。

コメント