SWE-Bench Pro Public — Top Models & Agents

SWE-Bench Pro Public — Top Models & Agents#

Blitzy

Agent66.5%

WarpGrep v2 (GPT-5.3-Codex)

Agent59.1%

GPT-5.4

Model57.7%

GPT-5.3-Codex

Model56.8%

Qwen 3.6 Plus

Model56.6%

MiniMax M2.7

Model56.2%

Claude Code (Opus 4.5)

Agent55.4%

GPT-5.4 mini

Model54.4%

Gemini 3.1 Pro

Model54.2%

Claude Opus 4.6

Model53.4%

Blitzy score independently verified byQuesma. All other scores self-reported. · 6 April 2026

Chart by

Sources

BlitzyMar 2026Independent audit — Quesma

WarpGrep v2 (GPT-5.3-Codex)~Mar 2, 2026WarpGrep v2 Launch — Y Combinator·SWE-Bench Pro Leaderboard — Morph LLM

GPT-5.4Mar 5, 2026Introducing GPT-5.4 — OpenAI

GPT-5.3-CodexFeb 5, 2026Introducing GPT-5.3-Codex — OpenAI

Qwen 3.6 PlusApr 2, 2026Qwen3.6 Plus — Alibaba Cloud

MiniMax M2.7Mar 18, 2026MiniMax M2.7 announcement — MiniMax

Claude Code (Opus 4.5)~Nov 24, 2025SWE-Bench Pro Leaderboard — Morph LLM

GPT-5.4 miniMar 17, 2026Introducing GPT-5.4 mini and nano — OpenAI

Gemini 3.1 ProFeb 19, 2026Gemini 3.1 Pro — Google Blog

Claude Opus 4.6Mar 2026Claude Opus 4.6 — Anthropic

Scale SEAL leaderboard:labs.scale.com/leaderboard/swe_bench_pro_public

All product names, logos, and brands (™/®) are the property of their respective owners; they're used here solely for identification and comparison, and their use does not imply affiliation, endorsement, or sponsorship.