AIME 2025

Scores Over Time

Individual benchmark scores plotted by date.

AIME 2025 - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
OpenAI	GPT 5.2 Chat	11 Dec 2025	100%	inferred alias from gpt-5.2-2025-12-11	Yes	Source
Google	Gemini 3 Pro Preview	18 Nov 2025	100%	-	Yes	Source
Google	Gemini 3 Pro Image Preview (Nano Banana Pro)	20 Nov 2025	100%	inferred modality/version alias from gemini-3-pro-preview	Yes	Source
Anthropic	Claude Opus 4.5	24 Nov 2025	100%	Avg@5, 64k Thinking, With Tools	Yes	Source
xAI	Grok 4 Heavy	10 Jul 2025	100%	-	Yes	Source
Moonshot	Kimi K2 Thinking	06 Nov 2025	100%	inferred alias from kimi-k2-thinking-0905	Yes	Source
OpenAI	GPT 5.2	11 Dec 2025	100%	No Tools	Yes	Source
OpenAI	GPT 5.2 Pro	11 Dec 2025	100%	No Tools	Yes	Source
Anthropic	Claude Opus 4.6	05 Feb 2026	99.79%	Without tools	Yes	Source
Google	Gemini 3 Flash Preview	17 Dec 2025	99.70%	-	Yes	Source
OpenAI	GPT 5	07 Aug 2025	99.60%	Thinking, With Python, Pass @ 1	Yes	Source
Nvidia	Nemotron Nano 3 30B A3B	15 Dec 2025	99.20%	-	Yes	Source
xAI	Grok 4	10 Jul 2025	98.80%	-	Yes	Source
OpenAI	GPT OSS 20b	05 Aug 2025	98.70%	High Reasoning Effort, With Tools	Yes	Source
OpenAI	o3	16 Apr 2025	98.40%	-	Yes	Source
ByteDance	Seed 2.0 Pro	14 Feb 2026	98.30%	-	Yes	Source
OpenAI	GPT OSS 120b	05 Aug 2025	97.90%	High Reasoning Effort, With Tools	Yes	Source
StepFun	Step 3.5 Flash	-	97.30%	-	Yes	Source
Arcee AI	Trinity Large Thinking	01 Apr 2026	96.30%	Hugging Face model card benchmark table (arcee-ai/Trinity-Large-Thinking)	Yes	Source
Moonshot	Kimi K2.5	27 Jan 2026	96.10%	avg@32	Yes	Source
DeepSeek	DeepSeek V3.2 Speciale	01 Dec 2025	96%	-	Yes	Source
z.AI	GLM 4.7	22 Dec 2025	95.70%	-	Yes	Source
Anthropic	Claude Sonnet 4.6	17 Feb 2026	95.60%	Without tools	Yes	Source
Xiaomi	MiMo V2 Flash	16 Dec 2025	94.10%	-	Yes	Source
OpenAI	GPT 5.1 Chat	13 Nov 2025	94%	inferred alias from gpt-5.1-2025-11-13	Yes	Source
z.AI	GLM 4.6	30 Sept 2025	93.90%	-	Yes	Source
xAI	Grok 3 Beta	19 Feb 2025	93.30%	Think, Cons@64	Yes	Source
xAI	Grok 3	18 Apr 2025	93.30%	-	Yes	Source
ByteDance	Seed 2.0 Lite	14 Feb 2026	93%	-	Yes	Source
LG	K EXAONE	31 Dec 2025	92.80%	inferred modality/version alias from k-exaone-236b-a23b	Yes	Source
OpenAI	o4 Mini	16 Apr 2025	92.70%	-	Yes	Source
OpenAI	o4 mini Deep Research	26 Jun 2025	92.70%	inferred modality/version alias from o4-mini	Yes	Source
Qwen	Qwen 3 235B A22B Thinking 2507	-	92.30%	-	Yes	Source
Amazon	Nova 2 Pro	02 Dec 2025	92.30%	-	Yes	Source
z.AI	GLM 4.7 Flash	19 Jan 2026	91.60%	-	Yes	Source
Inception	Mercury 2	24 Feb 2026	91.10%	-	Yes	Source
OpenAI	GPT 5 Mini	07 Aug 2025	91.10%	High Reasoning Effort, No Tools	Yes	Source
Amazon	Nova 2 Lite	02 Dec 2025	91%	-	Yes	Source
xAI	Grok 3 Mini Beta	19 Feb 2025	90.80%	Think, Cons@64	Yes	Source
xAI	Grok 3 Mini	18 Apr 2025	90.80%	-	Yes	Source
Nvidia	Nemotron 3 Super	11 Mar 2026	90.21%	-	Yes	Source
Qwen	Qwen 3 VL 235B A22B Thinking	-	89.70%	-	Yes	-
DeepSeek	DeepSeek V3.2 Exp	29 Sept 2025	89.30%	-	Yes	Source
DeepSeek	DeepSeek OCR 2	-	89.30%	inferred family alias from deepseek-v3.2-exp (score=0.3809; benches=14)	Yes	Source
Google	Gemini 2.5 Pro Preview (2025-06-05)	05 Jun 2025	88%	Single Attempt	Yes	Source
Google	Gemini 2.5 Pro Preview TTS (2025-05-20)	20 May 2025	88%	inferred family alias from gemini-2.5-pro-preview-06-05 (score=0.4243; benches=13)	Yes	Source
Qwen	Qwen 3 Next 80B A3B Thinking	-	87.80%	-	Yes	Source
ByteDance	Seed 2.0 Mini	14 Feb 2026	87%	Seed2 official benchmark table \| AIME 2025	Yes	Source
Baidu	Ernie 5.0 Preview 1220	-	87%	inferred version-family alias from ernie-5.0	Yes	Source
Baidu	Ernie 5.0	22 Jan 2026	87%	-	Yes	Source
Baidu	Ernie 5.0 0110	-	87%	inferred version-family alias from ernie-5.0	Yes	Source
Baidu	Ernie 5.0 Preview 1203	-	87%	inferred version-family alias from ernie-5.0	Yes	Source
Mistral	Mistral Medium 3.5	29 Apr 2026	86.30%	avg@16	Yes	Source
DeepSeek	DeepSeek R1 (2025-05-28)	28 May 2025	85.50%	-	Yes	Source
LG	EXAONE 4.0 32B	15 Jul 2025	85.30%	Reasoning	Yes	Source
OpenAI	GPT 5 Nano	07 Aug 2025	85.20%	High Reasoning Effort, No Tools	Yes	Source
Mistral	Ministral 3.0 14B	02 Dec 2025	85%	-	Yes	Source
Mistral	Mistral Small 4	16 Mar 2026	83.80%	-	Yes	Source
Mistral	Mistral Small Creative	16 Dec 2025	83.80%	inferred family alias from mistral-small-latest (score=0.4273; benches=9)	Yes	Source
Mistral	Mistral Small 1.0	26 Feb 2024	83.80%	inferred family alias from mistral-small-latest (score=0.3650; benches=9)	Yes	Source
Mistral	Mistral Small 2.0	17 Sept 2024	83.80%	inferred family alias from mistral-small-latest (score=0.3650; benches=9)	Yes	Source
Qwen	Qwen 3 VL 32B Thinking	-	83.70%	-	Yes	-
Qwen	Qwen 3 VL 30B A3B Thinking	-	83.10%	-	Yes	-
Google	Gemini 2.5 Computer Use Preview	07 Oct 2025	83%	inferred family alias from gemini-2.5-pro (score=0.3960; benches=16)	Yes	Source
Google	Gemini 2.5 Pro Experimental (2025-03-25)	25 Mar 2025	83%	inferred alias from gemini-2.5-pro	Yes	Source
Google	Gemini 2.5 Pro Preview (2025-05-06)	06 May 2025	83%	Pass@1	Yes	Source
Google	Gemini 2.5 Pro Preview TTS (2025-12-10)	10 Dec 2025	83%	inferred modality/version alias from gemini-2.5-pro	Yes	Source
Google	Gemini Embedding 2 Preview	10 Mar 2026	83%	manual fallback alias from gemini-2.5-pro	Yes	Source
Qwen	Qwen 3 14B	-	81.60%	inferred family alias from qwen3-max (score=0.3333; benches=6)	Yes	Source
Qwen	Qwen 3 Max Thinking	26 Jan 2026	81.60%	inferred alias from qwen3-max	Yes	Source
Qwen	Qwen 3 TTS (2025-11-27)	-	81.60%	inferred family alias from qwen3-max (score=0.3833; benches=6)	Yes	Source
Qwen	Qwen 3 235B A22B	-	81.50%	-	Yes	Source
MiniMax	MiniMax M2.1	23 Dec 2025	81%	-	Yes	Source
Anthropic	Claude Haiku 4.5	15 Oct 2025	80.70%	inferred alias from claude-haiku-4-5-20251001	Yes	Source
Qwen	Qwen 3 Guard Gen 8B	-	80.30%	inferred family alias from qwen3-vl-8b-thinking (score=0.3400; benches=50)	Yes	-
Qwen	Qwen 3 Embedding 8B	-	80.30%	inferred family alias from qwen3-vl-8b-thinking (score=0.3850; benches=50)	Yes	-
Qwen	Qwen 3 VL 8B Thinking	-	80.30%	-	Yes	-
Qwen	Qwen 3 VL Reranker 8B	-	80.30%	inferred high-confidence family alias from qwen3-vl-8b-thinking (score=0.5275; benches=50)	Yes	-
Qwen	Qwen 3 VL Embedding 8B	-	80.30%	inferred high-confidence family alias from qwen3-vl-8b-thinking (score=0.5232; benches=50)	Yes	-
Qwen	Qwen 3 8B	-	80.30%	inferred high-confidence family alias from qwen3-vl-8b-thinking (score=0.4600; benches=50)	Yes	-
Qwen	Qwen 3 Guard Stream 8B	-	80.30%	inferred family alias from qwen3-vl-8b-thinking (score=0.3371; benches=50)	Yes	-
Qwen	Qwen 3 Reranker 8B	-	80.30%	inferred family alias from qwen3-vl-8b-thinking (score=0.3850; benches=50)	Yes	-
Mistral	Ministral 8B	09 Oct 2024	78.70%	inferred alias from ministral-8b-latest	Yes	Source
Mistral	Ministral 3.0 8B	02 Dec 2025	78.70%	-	Yes	Source
Anthropic	Claude Opus 4.1	05 Aug 2025	78%	-	Yes	Source
MiniMax	MiniMax M2	27 Oct 2025	78%	-	Yes	-
Google	Gemini 2.5 Flash Preview (2025-04-17)	17 Apr 2025	78%	Thinking, Single Attempt	Yes	Source
MiniMax	MiniMax M2 Her	24 Jan 2026	78%	inferred modality/version alias from minimax-m2	Yes	-
Microsoft	Phi 4 Reasoning Plus	30 Apr 2025	78%	-	Yes	Source
MiniMax	MiniMax M1 80K	16 Jun 2025	76.90%	-	Yes	-
Qwen	Qwen 3 VL 235B A22B Instruct	-	74.70%	-	Yes	-
MiniMax	Minimax M1 40K	16 Jun 2025	74.60%	-	Yes	-
Qwen	Qwen 3 Reranker 4B	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3850; benches=48)	Yes	-
Qwen	Qwen 3 4B Instruct 2507	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3462; benches=48)	Yes	-
Qwen	Qwen 3 Guard Gen 4B	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3400; benches=48)	Yes	-
Qwen	Qwen 3 4B Thinking 2507	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3462; benches=48)	Yes	-
Qwen	Qwen 3 4B SafeRL	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3850; benches=48)	Yes	-
Qwen	Qwen 3 VL 4B Thinking	-	74.50%	-	Yes	-
Qwen	Qwen 3 Embedding 4B	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3850; benches=48)	Yes	-
Qwen	Qwen 3 Guard Stream 4B	-	74.50%	inferred family alias from qwen3-vl-4b-thinking (score=0.3371; benches=48)	Yes	-
Qwen	Qwen 3 32B	-	72.90%	-	Yes	Source
Nvidia	Llama 3.1 Nemotron Ultra 253B v1	07 Apr 2025	72.50%	-	Yes	Source
Nvidia	Nvidia Nemotron Nano 12B V2	-	72.10%	inferred high-confidence family alias from nvidia-nemotron-nano-9b-v2 (score=0.4889; benches=6)	Yes	Source
Mistral	Ministral 3B	09 Oct 2024	72.10%	inferred alias from ministral-3b-latest	Yes	Source
Nvidia	Nvidia Nemotron Nano 9B V2	-	72.10%	-	Yes	Source
Mistral	Ministral 3.0 3B	02 Dec 2025	72.10%	-	Yes	Source
Google	Gemini 2.5 Flash Exp Native Audio Thinking Dialog	-	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Google	Gemini 2.5 Flash Image (Nano Banana)	02 Oct 2025	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Google	Gemini Live 2.5 Flash Preview	09 Apr 2025	72%	inferred high-confidence family alias from gemini-2.5-flash (score=0.5083; benches=14)	Yes	Source
Google	Gemini 2.5 Flash Image Preview (Nano Banana)	25 Aug 2025	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Google	Gemini 2.5 Flash Native Audio Preview (2025-09-23)	-	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Google	Gemini 2.5 Flash Preview (2025-09-25)	25 Sept 2025	72%	inferred alias from gemini-2.5-flash	Yes	Source
Google	Gemini 2.5 Flash Preview (2025-05-20)	20 May 2025	72%	Pass@1	Yes	Source
Google	Gemini 2.5 Flash Preview Native Audio Dialog	-	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Google	Gemini 2.5 Flash Preview TTS (2025-05-20)	20 May 2025	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Google	Gemini 2.5 Flash Preview TTS (2025-12-10)	10 Dec 2025	72%	inferred modality/version alias from gemini-2.5-flash	Yes	Source
Qwen	Qwen 3 30B A3B Thinking 2507	-	70.90%	inferred version-family alias from qwen3-30b-a3b	Yes	Source
Qwen	Qwen 3 Coder 30B A3B Instruct	-	70.90%	inferred high-confidence family alias from qwen3-30b-a3b (score=0.5007; benches=8)	Yes	Source
Qwen	Qwen 3 30B A3B	-	70.90%	-	Yes	Source
Qwen	Qwen 3 Omni 30B A3B Captioner	-	70.90%	inferred family alias from qwen3-30b-a3b (score=0.4129; benches=8)	Yes	Source
Qwen	Qwen 3 Omni 30B A3B Thinking	-	70.90%	inferred high-confidence family alias from qwen3-30b-a3b (score=0.4819; benches=8)	Yes	Source
Qwen	Qwen 3 Omni 30B A3B Instruct	-	70.90%	inferred high-confidence family alias from qwen3-30b-a3b (score=0.4819; benches=8)	Yes	Source
Qwen	Qwen 3 30B A3B Instruct 2507	-	70.90%	inferred version-family alias from qwen3-30b-a3b	Yes	Source
Qwen	Qwen 3 A235 A22B Instruct 2507	-	70.30%	-	Yes	Source
Qwen	Qwen 3 Next 80B A3B Instruct	-	69.50%	-	Yes	Source
Qwen	Qwen 3 VL 30B A3B Instruct	-	69.30%	-	Yes	-
Qwen	Qwen 3 VL 32B Instruct	-	66.20%	-	Yes	-
Mistral	Magistral Medium 1.2	17 Sept 2025	64.90%	inferred version-family alias from magistral-medium	Yes	Source
Mistral	Magistral Medium 1.1	24 Jul 2025	64.90%	inferred version-family alias from magistral-medium	Yes	Source
Mistral	Magistral Medium 1.0	10 Jun 2025	64.90%	-	Yes	Source
Google	Gemini 2.5 Flash Lite Preview (2025-06-17)	17 Jun 2025	63.10%	Thinking	Yes	Source
Microsoft	Phi 4 Reasoning	30 Apr 2025	62.90%	-	Yes	Source
Mistral	Magistral Small 1.0	10 Jun 2025	62.80%	Pass@1	Yes	Source
Mistral	Magistral Small 1.1	24 Jul 2025	62.76%	inferred version-family alias from magistral-small-2506	Yes	Source
Mistral	Magistral Small 1.2	17 Sept 2025	62.76%	inferred version-family alias from magistral-small-2506	Yes	Source
Meituan	LongCat Flash Chat	-	61.25%	inferred high-confidence family alias from longcat-flash-chat (score=0.4667; benches=16)	Yes	Source
Nvidia	Llama 3.3 Nemotron Super 49B V1.5	-	58.40%	inferred version-family alias from llama-3.3-nemotron-super-49b-v1	Yes	Source
Nvidia	Llama 3.3 Nemotron Super 49B v1	18 Mar 2025	58.40%	-	Yes	Source
Google	Gemini 2.5 Flash Lite Preview (2025-09-25)	25 Sept 2025	49.80%	inferred alias from gemini-2.5-flash-lite	Yes	Source
DeepSeek	DeepSeek V3.1 Terminus	22 Sept 2025	49.80%	inferred alias from deepseek-v3.1	Yes	Source
DeepSeek	DeepSeek V3.1	21 Aug 2025	49.80%	Non-thinking: 49.8%, Thinking: 88.4%	Yes	Source
Moonshot	Kimi K2 (2025-09-05)	05 Sept 2025	49.50%	Avg@64	Yes	Source
Nvidia	Llama 3.1 Nemotron Nano 4B V1.1	-	47.10%	inferred high-confidence family alias from llama-3.1-nemotron-nano-8b-v1 (score=0.5523; benches=7)	Yes	Source
Nvidia	Llama 3.1 Nemotron Nano 8B V1	18 Mar 2025	47.10%	-	Yes	Source
Qwen	Qwen 3 VL 4B Instruct	-	46.60%	-	Yes	-
Qwen	Qwen 3 VL 8B Instruct	-	45.90%	-	Yes	-
LG	EXAONE 4.0 1.2B	15 Jul 2025	45.20%	Reasoning	Yes	Source
OpenAI	GPT 5.1 Codex Mini	13 Nov 2025	42.10%	GPT-5.1 Codex Mini w/ python	Yes	Source
Google	Gemini 2.0 Flash	05 Feb 2025	27.50%	Single Attempt	Yes	Source
Google	Gemini Diffusion	20 May 2025	23.30%	Pass@1	Yes	Source

Score Range

Leading Model

Recorded Results

Average Score

Score Range

Leading Model

Models Using This Benchmark