Terminal Bench

Terminal Bench - Benchmark Leaderboard & Model Performance | AI Stats

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
MiniMax	MiniMax M2.1	23 Dec 2025	47.90%	-	Yes	Source
Moonshot	Kimi K2 Thinking	06 Nov 2025	47.10%	inferred alias from kimi-k2-thinking-0905	Yes	Source
MiniMax	MiniMax M2	27 Oct 2025	46.30%	-	Yes	-
MiniMax	MiniMax M2 Her	24 Jan 2026	46.30%	inferred modality/version alias from minimax-m2	Yes	-
Anthropic	Claude Opus 4.1	05 Aug 2025	43.30%	-	Yes	Source
Amazon	Nova 2 Pro	02 Dec 2025	41.30%	-	Yes	Source
Anthropic	Claude Haiku 4.5	15 Oct 2025	41%	inferred alias from claude-haiku-4-5-20251001	Yes	Source
z.AI	GLM 4.6	30 Sept 2025	40.50%	-	Yes	Source
Meituan	Longcat Flash Cat	-	39.51%	inferred high-confidence family alias from longcat-flash-chat (score=0.4667; benches=16)	Yes	Source
DeepSeek	DeepSeek OCR 2	-	37.70%	inferred family alias from deepseek-v3.2-exp (score=0.3809; benches=14)	Yes	Source
DeepSeek	DeepSeek V3.2 Exp	29 Sept 2025	37.70%	-	Yes	Source
z.AI	GLM 4.5	28 Jul 2025	37.50%	-	Yes	Source
Qwen	Qwen 3 Coder 480B A35B Instruct	-	37.50%	-	Yes	Source
z.AI	GLM 4.7	22 Dec 2025	33.30%	-	Yes	Source
Amazon	Nova 2 Lite	02 Dec 2025	32.50%	-	Yes	Source
DeepSeek	DeepSeek V3.1	21 Aug 2025	31.30%	-	Yes	Source
DeepSeek	DeepSeek V3.1 Terminus	22 Sept 2025	31.30%	inferred alias from deepseek-v3.1	Yes	Source
Xiaomi	MiMo V2 Flash	16 Dec 2025	30.50%	-	Yes	Source
Moonshot	Kimi K2 (2025-09-05)	05 Sept 2025	30%	Inhouse Framework (Acc)	Yes	Source
z.AI	GLM 4.5 Air	28 Jul 2025	30%	-	Yes	Source
Nvidia	Nemotron 3 Super	11 Mar 2026	25.78%	-	Yes	Source
Nvidia	Nemotron Nano 3 30B A3B	15 Dec 2025	8.50%	-	Yes	Source