MT-Bench - Benchmark Leaderboard & Model Performance | AI Stats

MT-Bench - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
IBM	Granite 4.1 8B	29 Apr 2026	8.61	Avg	Yes	Source
IBM	Granite 4.1 30B	29 Apr 2026	8.61	Avg	Yes	Source
IBM	Granite 4.1 3B	29 Apr 2026	7.57	Avg	Yes	Source
Qwen	Qwen 72B	-	0.94	inferred family alias from qwen-2.5-72b-instruct (score=0.3060; benches=14)	Yes	Source
Nvidia	Llama 3.3 Nemotron Super 49B V1.5	-	0.92	inferred version-family alias from llama-3.3-nemotron-super-49b-v1	Yes	Source
Nvidia	Llama 3.3 Nemotron Super 49B v1	18 Mar 2025	0.92	-	Yes	Source
DeepSeek	DeepSeek V2.5 (2024-12-10)	10 Dec 2024	0.90	inferred alias from deepseek-v2.5	Yes	Source
DeepSeek	DeepSeek V2.5 (2024-09-05)	05 Sept 2024	0.90	inferred alias from deepseek-v2.5	Yes	Source
Qwen	Qwen 7B	-	0.88	inferred family alias from qwen-2.5-7b-instruct (score=0.3083; benches=14)	Yes	Source
Mistral	Mistral OCR 2	22 May 2025	0.86	inferred family alias from mistral-large-2-2407 (score=0.3100; benches=5)	Yes	Source
Mistral	Mistral Moderation 2	17 Mar 2026	0.86	manual fallback alias from mistral-large-2-2407	Yes	Source
Mistral	Mistral Large 2.1	18 Nov 2024	0.86	inferred version-family alias from mistral-large-2-2407	Yes	Source
Mistral	Voxtral Mini Transcribe 2	04 Feb 2026	0.86	manual fallback alias from mistral-large-2-2407	Yes	Source
Qwen	Qwen 2 Audio 7B	-	0.84	inferred modality/version alias from qwen2-7b-instruct	Yes	Source
Qwen	Qwen 2 Math 7B	-	0.84	inferred high-confidence family alias from qwen2-7b-instruct (score=0.4706; benches=14)	Yes	Source
Nvidia	Llama 3.1 Nemotron Nano 4B V1.1	-	0.81	inferred high-confidence family alias from llama-3.1-nemotron-nano-8b-v1 (score=0.5523; benches=7)	Yes	Source
Nvidia	Llama 3.1 Nemotron Nano 8B V1	18 Mar 2025	0.81	-	Yes	Source
Mistral	Pixtral 12B	17 Sept 2024	0.77	inferred version-family alias from pixtral-12b-2409	Yes	Source
Nvidia	Llama 3.1 Nemotron 70B Instruct	01 Oct 2024	0.09	-	Yes	Source