Toolathlon

35.20% - 55.60%

Toolathlon - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
OpenAI	GPT 5.5	23 Apr 2026	55.60%	-	Yes	Source
OpenAI	GPT 5 Search API	14 Oct 2025	54.60%	inferred family alias from gpt-5.4 (score=0.3050; benches=19)	Yes	Source
OpenAI	GPT 5.4	05 Mar 2026	54.60%	-	Yes	Source
OpenAI	GPT 5 Pro	07 Aug 2025	54.60%	inferred family alias from gpt-5.4 (score=0.4083; benches=19)	Yes	Source
Anthropic	Claude Sonnet 5	30 Jun 2026	54.30%	Pass@1; internal harness; adaptive thinking at max effort; averaged over three trials across 108 tasks	Yes	Source
DeepSeek	DeepSeek V4 Pro	24 Apr 2026	51.80%	Pass@1; DeepSeek-V4-Pro Max	Yes	Source
Google	Gemini 3 Flash Preview	17 Dec 2025	49.40%	-	Yes	Source
DeepSeek	DeepSeek V4 Flash	24 Apr 2026	47.80%	Pass@1; DeepSeek-V4-Flash Max	Yes	Source
OpenAI	GPT 5.2 Chat	11 Dec 2025	46.30%	inferred alias from gpt-5.2-2025-12-11	Yes	Source
MiniMax	MiniMax M2.7	18 Mar 2026	46.30%	-	Yes	Source
MiniMax	MiniMax M2.1	23 Dec 2025	43.50%	-	Yes	Source
OpenAI	GPT 5.4 Mini	17 Mar 2026	42.90%	-	Yes	Source
Qwen	Qwen 3.6 Plus	01 Apr 2026	39.80%	-	Yes	Source
Qwen	Qwen 3.5 397B A17B	16 Feb 2026	38.30%	-	Yes	Source
OpenAI	GPT 5.4 Nano	17 Mar 2026	35.50%	-	Yes	Source
DeepSeek	DeepSeek V3.2 Speciale	01 Dec 2025	35.20%	-	Yes	Source