BrowseComp

BrowseComp - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
OpenAI	GPT 5.5 Pro	23 Apr 2026	90.10%	-	Yes	Source
OpenAI	GPT 5.4 Pro	05 Mar 2026	89.30%	-	Yes	Source
Anthropic	Claude Mythos Preview	07 Apr 2026	86.90%	4.9x fewer tokens vs Opus 4.6	Yes	Source
Anthropic	Claude Opus 4.6	05 Feb 2026	86.60%	Multi-agent configuration	Yes	Source
Google	Gemini 3.1 Pro Preview	19 Feb 2026	85.90%	-	Yes	-
OpenAI	GPT 5.5	23 Apr 2026	84.40%	-	Yes	Source
OpenAI	GPT 5 Search API	14 Oct 2025	82.70%	inferred family alias from gpt-5.4 (score=0.3050; benches=19)	Yes	Source
OpenAI	GPT 5.4	05 Mar 2026	82.70%	-	Yes	Source
OpenAI	GPT 5 Pro	07 Aug 2025	82.70%	inferred family alias from gpt-5.4 (score=0.4083; benches=19)	Yes	Source
z.AI	GLM 5.1	07 Apr 2026	79.30%	w/ Context Manage	Yes	Source
Anthropic	Claude Opus 4.7	16 Apr 2026	79.30%	-	Yes	Source
Qwen	Qwen 3.5 397B A17B	16 Feb 2026	78.60%	Discard-all context strategy	Yes	Source
ByteDance	Seed 2.0 Pro	14 Feb 2026	77.30%	-	Yes	Source
MiniMax	MiniMax M2.5	12 Feb 2026	76.30%	-	Yes	Source
z.AI	GLM 5	11 Feb 2026	75.90%	-	Yes	Source
Moonshot	Kimi K2.5	27 Jan 2026	74.90%	-	Yes	Source
Anthropic	Claude Sonnet 4.6	17 Feb 2026	74.70%	-	Yes	Source
ByteDance	Seed 2.0 Lite	14 Feb 2026	72.10%	Seed2 official benchmark table \| BrowseComp	Yes	Source
StepFun	Step 3.5 Flash	-	69%	-	Yes	Source
OpenAI	GPT 5.2 Chat	11 Dec 2025	65.80%	inferred alias from gpt-5.2-2025-12-11	Yes	Source
Qwen	Qwen 3.5 122B A10B	24 Feb 2026	63.80%	-	Yes	Source
MiniMax	MiniMax M2.1	23 Dec 2025	62%	-	Yes	Source
Qwen	Qwen 3.5 Flash	23 Feb 2026	61%	inferred family alias from qwen3.5-27b (score=0.4147; benches=81)	Yes	Source
Qwen	Qwen 3.5 27B	24 Feb 2026	61%	-	Yes	Source
Qwen	Qwen 3.5 35B A3B	24 Feb 2026	61%	-	Yes	Source
Moonshot	Kimi K2 Thinking	06 Nov 2025	60.20%	inferred alias from kimi-k2-thinking-0905	Yes	Source
Xiaomi	MiMo V2 Flash	16 Dec 2025	58.30%	-	Yes	Source
OpenAI	GPT 5	07 Aug 2025	54.90%	With Thinking, Pass @ 1	Yes	Source
z.AI	GLM 4.7	22 Dec 2025	52%	-	Yes	Source
OpenAI	o4 Mini	16 Apr 2025	51.50%	-	Yes	Source
OpenAI	o4 mini Deep Research	26 Jun 2025	51.50%	inferred modality/version alias from o4-mini	Yes	Source
Mistral	Mistral Medium 3.5	29 Apr 2026	48.60%	-	Yes	Source
z.AI	GLM 4.6	30 Sept 2025	45.10%	-	Yes	Source
MiniMax	MiniMax M2 Her	24 Jan 2026	44%	inferred modality/version alias from minimax-m2	Yes	-
MiniMax	MiniMax M2	27 Oct 2025	44%	-	Yes	-
z.AI	GLM 4.7 Flash	19 Jan 2026	42.80%	-	Yes	Source
DeepSeek	DeepSeek OCR 2	-	40.10%	inferred family alias from deepseek-v3.2-exp (score=0.3809; benches=14)	Yes	Source
DeepSeek	DeepSeek V3.2 Exp	29 Sept 2025	40.10%	-	Yes	Source
Nvidia	Nemotron 3 Super	11 Mar 2026	31.28%	-	Yes	Source
DeepSeek	DeepSeek V3.1	21 Aug 2025	30%	Search agent with commercial API + webpage filter + 128K context	Yes	Source
DeepSeek	DeepSeek V3.1 Terminus	22 Sept 2025	30%	inferred alias from deepseek-v3.1	Yes	Source
z.AI	GLM 4.5	28 Jul 2025	26.40%	-	Yes	Source
z.AI	GLM 4.5 Air	28 Jul 2025	21.30%	-	Yes	Source

Recorded Results

Average Score

Score Range

Leading Model

Models Using This Benchmark