OpenAI、計算生物学向けベンチマーク「GeneBench-Pro」を発表――GPT-5.6 Solが最高28.7%のパス率を達成

2026年7月2日

OpenAIは2026年6月30日、計算生物学分野のAIエージェント評価ベンチマーク「GeneBench-Pro」を発表した。ゲノミクスから臨床遺伝学まで10ドメイン・129問で構成され、データの曖昧さへの対処や分析手法の選択といった「研究上の判断力」を測ることを主眼に設計されている。

従来の生物学ベンチマークは既知の正解に向けた手順を実行する問題が多かったが、GeneBench-Proは現実の研究に即してデータを合成生成し、ノイズや品質管理上の問題を含む「乱雑なデータ」を出発点とする。専門家レビューによれば、各問題は熟練した指導者の助けなしには大学院生でも完遂が難しい難度で、解答に要する人間の作業時間は1問あたり20〜40時間と見積もられている。最新モデルのGPT-5.6 Solは最高推論レベルで28.7%（Proモード時31.5%）のパス率を達成しており、GPT-5の5%未満から大幅に向上した。一方でGPT-5.6 Solによる1問あたりの推論コストは数ドル程度にとどまり、人間の作業コスト（数千ドル）との差は大きい。129問のうち10問はHugging Faceでオープンソース公開されており、Artificial Analysisによる独立した第三者評価用に50問のサブセットも提供される予定だ。

「研究の判断力」を評価軸にした意義

GeneBench-Proが既存ベンチマークと一線を画すのは、知識の想起や手順の実行ではなく、データを前にして「何を問えるか」「どの分析経路が正しいか」「いつ仮定を修正すべきか」という判断プロセスを評価対象にしている点だ。現時点でフロンティアモデルでもパス率が3割に満たないという結果は、AI研究支援が「実行補助」の段階にとどまっており、専門家の代替にはまだ距離があることを示している。

コスト格差が示す自動化の現実的な経路

人間専門家が数千ドル・数十時間を要する問題をAIが数ドルで一部解ける現状は、「完全自動化」より「部分自動化による加速」が近い未来として現実的であることを示唆している。仮説の絞り込みやデータ探索の補助として活用することで、研究の反復サイクルを短縮できる可能性は十分にあり、製薬・バイオテクでの標的探索など判断量が多い工程での導入が先行するとみられる。

ベンチマーク公開によるエコシステム戦略

一部問題のオープンソース公開と第三者評価機関への提供は、GeneBench-Proを業界標準の評価軸として定着させる狙いが見えてくる。評価基準を自ら設計・公開することで、科学分野のAI能力議論においてOpenAIが議題を主導する構図を作ると同時に、自社モデルの優位性を客観的なデータで示す効果も持つ。

タグ付け処理あり:OpenAI

illumina

OpenAI、計算生物学向けベンチマーク「GeneBench-Pro」を発表――GPT-5.6 Solが最高28.7%のパス率を達成

「研究の判断力」を評価軸にした意義

コスト格差が示す自動化の現実的な経路

ベンチマーク公開によるエコシステム戦略

Google DeepMind、画像生成モデル「Nano Banana 2 Lite」とビデオ生成「Gemini Omni Flash」を開発者向けに公開

OpenAI、データインフラの18年前のバグを修正――「疫学的アプローチ」で2つの無関係な障害を切り分け

OpenAI、計算生物学向けベンチマーク「GeneBench-Pro」を発表――GPT-5.6 Solが最高28.7%のパス率を達成

「研究の判断力」を評価軸にした意義

コスト格差が示す自動化の現実的な経路

ベンチマーク公開によるエコシステム戦略

Google DeepMind、画像生成モデル「Nano Banana 2 Lite」とビデオ生成「Gemini Omni Flash」を開発者向けに公開

OpenAI、データインフラの18年前のバグを修正――「疫学的アプローチ」で2つの無関係な障害を切り分け

Related Posts

Anthropic、AIのサイバー悪用対策とジェイルブレイク重大度評価の枠組みを公表

Google、英国のAI職場利用率が1年で34%から73%に倍増と報告――「AIトレイルブレーザー」は昇進率84%高

OpenAI、データインフラの18年前のバグを修正――「疫学的アプローチ」で2つの無関係な障害を切り分け