ホーム / ニュース / OpenAI、計算生物学向けベンチマーク「GeneBench-Pro」を発表――GPT-5.6 Solが最高28.7%のパス率を達成

OpenAI、計算生物学向けベンチマーク「GeneBench-Pro」を発表――GPT-5.6 Solが最高28.7%のパス率を達成

OpenAIは2026年6月30日、計算生物学分野のAIエージェント評価ベンチマーク「GeneBench-Pro」を発表した。ゲノミクスから臨床遺伝学まで10ドメイン・129問で構成され、データの曖昧さへの対処や分析手法の選択といった「研究上の判断力」を測ることを主眼に設計されている。

従来の生物学ベンチマークは既知の正解に向けた手順を実行する問題が多かったが、GeneBench-Proは現実の研究に即してデータを合成生成し、ノイズや品質管理上の問題を含む「乱雑なデータ」を出発点とする。専門家レビューによれば、各問題は熟練した指導者の助けなしには大学院生でも完遂が難しい難度で、解答に要する人間の作業時間は1問あたり20〜40時間と見積もられている。最新モデルのGPT-5.6 Solは最高推論レベルで28.7%(Proモード時31.5%)のパス率を達成しており、GPT-5の5%未満から大幅に向上した。一方でGPT-5.6 Solによる1問あたりの推論コストは数ドル程度にとどまり、人間の作業コスト(数千ドル)との差は大きい。129問のうち10問はHugging Faceでオープンソース公開されており、Artificial Analysisによる独立した第三者評価用に50問のサブセットも提供される予定だ。


「研究の判断力」を評価軸にした意義

GeneBench-Proが既存ベンチマークと一線を画すのは、知識の想起や手順の実行ではなく、データを前にして「何を問えるか」「どの分析経路が正しいか」「いつ仮定を修正すべきか」という判断プロセスを評価対象にしている点だ。現時点でフロンティアモデルでもパス率が3割に満たないという結果は、AI研究支援が「実行補助」の段階にとどまっており、専門家の代替にはまだ距離があることを示している。

コスト格差が示す自動化の現実的な経路

人間専門家が数千ドル・数十時間を要する問題をAIが数ドルで一部解ける現状は、「完全自動化」より「部分自動化による加速」が近い未来として現実的であることを示唆している。仮説の絞り込みやデータ探索の補助として活用することで、研究の反復サイクルを短縮できる可能性は十分にあり、製薬・バイオテクでの標的探索など判断量が多い工程での導入が先行するとみられる。

ベンチマーク公開によるエコシステム戦略

一部問題のオープンソース公開と第三者評価機関への提供は、GeneBench-Proを業界標準の評価軸として定着させる狙いが見えてくる。評価基準を自ら設計・公開することで、科学分野のAI能力議論においてOpenAIが議題を主導する構図を作ると同時に、自社モデルの優位性を客観的なデータで示す効果も持つ。

タグ付け処理あり: