ARC-AGI-1

ARC-AGI-1 - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
Google	Gemini 3.1 Pro Preview	19 Feb 2026	98%	-	Yes	-
Anthropic	Claude Opus 4.6	05 Feb 2026	94%	ARC Prize Foundation private dataset; 120k thinking tokens; high effort	Yes	Source
Anthropic	Claude Opus 4.7	16 Apr 2026	92%	-	Yes	Source
OpenAI	GPT 5.2 Pro	11 Dec 2025	90.50%	Extra High Reasoning Effort	Yes	-
Google	Gemini 3 Pro Preview	18 Nov 2025	87.50%	Deep Think	No	Source
Anthropic	Claude Sonnet 4.6	17 Feb 2026	86.50%	ARC Prize Foundation private dataset; 120k thinking tokens; high effort	Yes	Source
OpenAI	GPT 5.2	11 Dec 2025	86.20%	Extra High Reasoning Effort	Yes	-
ByteDance	Seed 2.0 Pro	14 Feb 2026	85.40%	Seed2 official benchmark table \| ARC-AGI-1	Yes	Source
Anthropic	Claude Opus 4.5	24 Nov 2025	80%	64k Thinking	No	Source
OpenAI	o3 Preview	20 Dec 2024	75.70%	Preview Model & Low Reasoning Effort	No	Source
ByteDance	Seed 2.0 Lite	14 Feb 2026	75.70%	Seed2 official benchmark table \| ARC-AGI-1	Yes	Source
OpenAI	GPT 5.1	12 Nov 2025	72.80%	High Reasoning Effort	No	Source
xAI	Grok 4	10 Jul 2025	66.70%	Thinking	No	Source
OpenAI	GPT 5	07 Aug 2025	65.70%	High Reasoning Effort	No	Source
Moonshot	Kimi K2.5	27 Jan 2026	65.30%	-	No	-
OpenAI	o3 Pro	10 Jun 2025	59.30%	High Reasoning Effort	No	Source
DeepSeek	DeepSeek V3.2	01 Dec 2025	57%	-	No	-
OpenAI	GPT 5 Mini	07 Aug 2025	54.30%	High Reasoning Effort	No	Source
OpenAI	o3	16 Apr 2025	53%	Medium Reasoning Effort	No	Source
z.AI	GLM 5	11 Feb 2026	44.70%	-	No	-
ByteDance	Seed 2.0 Mini	14 Feb 2026	43.30%	Seed2 official benchmark table \| ARC-AGI-1	Yes	Source
Qwen	Qwen 3 A235 A22B Instruct 2507	-	41.80%	NOT confirmed by Arc-AGI	Yes	Source
OpenAI	o4 Mini	16 Apr 2025	41.80%	Medium Reasoning Effort	No	Source
Google	Gemini 2.5 Pro Preview (2025-06-05)	05 Jun 2025	41%	16k Thinking	No	Source
Anthropic	Claude Sonnet 4	21 May 2025	40%	16k Thinking	No	Source
Anthropic	Claude Opus 4	21 May 2025	35.70%	16k Thinking	No	Source
OpenAI	o3 mini	30 Jan 2025	34.50%	High Reasoning Effort	No	Source
OpenAI	o1	17 Dec 2024	30.70%	Medium Reasoning Effort	No	Source
Anthropic	Claude 3.7 Sonnet	24 Feb 2025	28.60%	16k Thinking	No	Source
OpenAI	Codex Mini	16 May 2025	27.30%	-	No	Source
OpenAI	o1 pro	19 Mar 2025	23.30%	Low Reasoning Effort	No	Source
DeepSeek	DeepSeek R1 (2025-05-28)	28 May 2025	21.20%	-	No	-
OpenAI	GPT 5 Nano	07 Aug 2025	20.70%	Medium Reasoning Effort	No	Source
xAI	Grok 3 Mini	18 Apr 2025	16.50%	Low Reasoning Effort	No	Source
DeepSeek	DeepSeek R1 (2025-01-20)	20 Jan 2025	15.80%	-	No	-
OpenAI	o1 mini	12 Sept 2024	14%	-	No	Source
Qwen	Qwen 3 235B A22B	-	11%	-	No	-
OpenAI	GPT 4.5	27 Feb 2025	10.30%	-	No	Source
Mistral	Magistral Medium 1.0	10 Jun 2025	6.10%	Thinking	No	Source
xAI	Grok 3	18 Apr 2025	5.50%	-	No	Source
OpenAI	GPT 4.1	14 Apr 2025	5.50%	-	No	Source
Mistral	Magistral Small 1.0	10 Jun 2025	5%	-	No	Source
OpenAI	GPT 4.1 Mini	14 Apr 2025	3.50%	-	No	Source
OpenAI	GPT 4.1 Nano	14 Apr 2025	0%	-	No	Source

Recorded Results

Average Score

Score Range

Leading Model

Models Using This Benchmark