BBH

88.87% - Qwen 3 235B A22B

BBH - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
Qwen	Qwen 3 235B A22B	-	88.87%	-	Yes	Source
DeepSeek	DeepSeek V2.5 (2024-12-10)	10 Dec 2024	84.30%	inferred alias from deepseek-v2.5	Yes	Source
DeepSeek	DeepSeek V2.5 (2024-09-05)	05 Sept 2024	84.30%	inferred alias from deepseek-v2.5	Yes	Source
IBM	Granite 4.1 30B	29 Apr 2026	83.74%	3-shot, CoT	Yes	Source
Qwen	Qwen 2 Math 72B	-	82.40%	inferred high-confidence family alias from qwen2-72b-instruct (score=0.4667; benches=17)	Yes	Source
Qwen	Qwen 2 Math RM 72B	-	82.40%	inferred family alias from qwen2-72b-instruct (score=0.3917; benches=17)	Yes	Source
IBM	Granite 4.1 8B	29 Apr 2026	80.51%	3-shot, CoT	Yes	Source
Qwen	Qwen 14B	-	78.20%	inferred family alias from qwen-2.5-14b-instruct (score=0.3060; benches=16)	Yes	Source
IBM	Granite 4.1 3B	29 Apr 2026	75.83%	3-shot, CoT	Yes	Source
Baidu	Ernie 4.5 300B A47B	-	30.40%	inferred version-family alias from ernie-4.5	Yes	Source
Baidu	Ernie 4.5 VL 28B A3B	-	30.40%	inferred version-family alias from ernie-4.5	Yes	Source
Baidu	Ernie 4.5 VL 424B A47B	-	30.40%	inferred version-family alias from ernie-4.5	Yes	Source
Baidu	Ernie 4.5 21B A3B Thinking	-	30.40%	inferred version-family alias from ernie-4.5	Yes	Source
Baidu	Ernie 4.5 Turbo	-	30.40%	inferred version-family alias from ernie-4.5	Yes	Source
Baidu	Ernie 4.5 21B A3B	-	30.40%	inferred version-family alias from ernie-4.5	Yes	Source