AI Stats update coming soon

Refreshed design, improved Updates, and the AI Stats Gateway - rolling out over the next week.

Benchmark Coverage & Contributions

See which models have been evaluated on which benchmarks. Fill in missing results and help keep the database comprehensive and up to date.

Benchmark Coverage107 benchmarks, 217 models

GPQA Diamond

Coverage

49%

109/217

LMArena Text

Coverage

35%

77/217

Confabulations

Coverage

20%

44/217

NYT Connections

Coverage

20%

45/217

AIME 2024

Coverage

19%

42/217

AIME 2025

Coverage

18%

40/217

Aider-Polyglot

Coverage

16%

35/217

Thematic Generalisation

Coverage

16%

36/217

EQ-Bench 3

Coverage

15%

33/217

SimpleBench

Coverage

15%

34/217

ARC-AGI-1

Coverage

14%

30/217

ARC-AGI-2

Coverage

13%

28/217

Elimation Game

Coverage

13%

29/217

Humanity's Last Exam

Coverage

10%

23/217

SWE-Bench

Coverage

10%

22/217

Ai2 SciArena

Coverage

19/217

LMArena WebDev

Coverage

21/217

LiveBench

Coverage

17/217

MMMU

Coverage

17/217

MMLU

Coverage

15/217

AidanBench

Coverage

14/217

SimpleQA

Coverage

14/217

HMMT 2025

Coverage

11/217

LisanBench

Coverage

10/217

MMLU-Pro

Coverage

12/217

BrowseComp Long Context 128k

Coverage

8/217

Graphwalks bfs <128k

Coverage

8/217

Graphwalks parents <128k

Coverage

8/217

IFEval

Coverage

9/217

OpenAI-MRCR: 2 needle 128k

Coverage

8/217

VideoMME

Coverage

8/217

BrowseComp Long Context 256k

Coverage

6/217

Creative Story Writing

Coverage

6/217

FActScore hallucination rate

Coverage

7/217

LiveCodeBench V6

Coverage

6/217

LongFact-Concepts hallucination rate

Coverage

7/217

LongFact-Objects hallucination rate

Coverage

7/217

OpenAI-MRCR: 2 needle 256k

Coverage

6/217

Tau Bench (Airline)

Coverage

7/217

Tau Bench (Retail)

Coverage

7/217

Codeforces

Coverage

5/217

FACTS

Coverage

4/217

Frontier Math

Coverage

4/217

HumanEval

Coverage

5/217

MATH

Coverage

5/217

MMLU Pro

Coverage

4/217

MMLU Redux

Coverage

5/217

SuperGPQA

Coverage

4/217

Tau 2 Airline

Coverage

5/217

Tau 2 Retail

Coverage

5/217

Tau 2 Telecom

Coverage

5/217

Terminal Bench

Coverage

4/217

CharXiv-Reasoning

Coverage

3/217

COLLIE

Coverage

3/217

CSimpleQA

Coverage

2/217

ERQA

Coverage

3/217

GSM8K

Coverage

3/217

HealthBench

Coverage

3/217

HealthBench Concensus

Coverage

2/217

HealthBench Hard

Coverage

3/217

LiveCodeBench V5

Coverage

2/217

MMMLU

Coverage

3/217

MMMU Pro

Coverage

3/217

Multi‑Programming Language Evaluation

Coverage

2/217

Online Judgement Benchmark

Coverage

2/217

SWE Bench Multilingual

Coverage

2/217

USAMO 2025

Coverage

2/217

Video MMMU

Coverage

3/217

ZebraLogic

Coverage

2/217

ACEBench

Coverage

1/217

AI2D

Coverage

1/217

AutoLogi

Coverage

1/217

Balrog-AI

Coverage

0/217

BigCodeBench

Coverage

1/217

BrowseComp

Coverage

1/217

C-Eval

Coverage

1/217

ChartQA

Coverage

1/217

CNMO 2024

Coverage

1/217

DocVQA

Coverage

1/217

Dubesor LLM

Coverage

0/217

EvalPlus

Coverage

1/217

Fiction-Live Bench

Coverage

0/217

Galileo Agent

Coverage

0/217

GPQA

Coverage

1/217

IQ Bench

Coverage

0/217

MATH 500

Coverage

1/217

MathArena

Coverage

0/217

Mathvista

Coverage

1/217

MC-Bench

Coverage

0/217

METR

Coverage

0/217

Misguided Attention

Coverage

0/217

MLE-Bench

Coverage

0/217

MMLU Redux 2.0

Coverage

1/217

PaperBench

Coverage

0/217

PHYBench

Coverage

0/217

PolyMath-en

Coverage

1/217

SEAL MultiChallenege

Coverage

0/217

SmolAgents LLM

Coverage

0/217

Snake-Bench

Coverage

0/217

SOLO-Bench

Coverage

0/217

SWE Bench Live

Coverage

1/217

SWE-Lancer

Coverage

1/217

Symflower Coding

Coverage

0/217

TAU-Bench

Coverage

1/217

TriviaQA

Coverage

1/217

WeirdML

Coverage

0/217

XLANG Agent

Coverage

0/217

AI Stats

AI Stats update coming soon

Refreshed design, improved Updates, and the AI Stats Gateway - rolling out over the next week.

Roadmap

Benchmark Coverage & Contributions

See which models have been evaluated on which benchmarks. Fill in missing results and help keep the database comprehensive and up to date.

Benchmark Coverage107 benchmarks, 217 models

GPQA Diamond

Coverage

49%

109/217

LMArena Text

Coverage

35%

77/217

Confabulations

Coverage

20%

44/217

NYT Connections

Coverage

20%

45/217

AIME 2024

Coverage

19%

42/217

AIME 2025

Coverage

18%

40/217

Aider-Polyglot

Coverage

16%

35/217

Thematic Generalisation

Coverage

16%

36/217

EQ-Bench 3

Coverage

15%

33/217

SimpleBench

Coverage

15%

34/217

ARC-AGI-1

Coverage

14%

30/217

ARC-AGI-2

Coverage

13%

28/217

Elimation Game

Coverage

13%

29/217

Humanity's Last Exam

Coverage

10%

23/217

SWE-Bench

Coverage

10%

22/217

Ai2 SciArena

Coverage

19/217

LMArena WebDev

Coverage

21/217

LiveBench

Coverage

17/217

MMMU

Coverage

17/217

MMLU

Coverage

15/217

AidanBench

Coverage

14/217

SimpleQA

Coverage

14/217

HMMT 2025

Coverage

11/217

LisanBench

Coverage

10/217

MMLU-Pro

Coverage

12/217

BrowseComp Long Context 128k

Coverage

8/217

Graphwalks bfs <128k

Coverage

8/217

Graphwalks parents <128k

Coverage

8/217

IFEval

Coverage

9/217

OpenAI-MRCR: 2 needle 128k

Coverage

8/217

VideoMME

Coverage

8/217

BrowseComp Long Context 256k

Coverage

6/217

Creative Story Writing

Coverage

6/217

FActScore hallucination rate

Coverage

7/217

LiveCodeBench V6

Coverage

6/217

LongFact-Concepts hallucination rate

Coverage

7/217

LongFact-Objects hallucination rate

Coverage

7/217

OpenAI-MRCR: 2 needle 256k

Coverage

6/217

Tau Bench (Airline)

Coverage

7/217

Tau Bench (Retail)

Coverage

7/217

Codeforces

Coverage

5/217

FACTS

Coverage

4/217

Frontier Math

Coverage

4/217

HumanEval

Coverage

5/217

MATH

Coverage

5/217

MMLU Pro

Coverage

4/217

MMLU Redux

Coverage

5/217

SuperGPQA

Coverage

4/217

Tau 2 Airline

Coverage

5/217

Tau 2 Retail

Coverage

5/217

Tau 2 Telecom

Coverage

5/217

Terminal Bench

Coverage

4/217

CharXiv-Reasoning

Coverage

3/217

COLLIE

Coverage

3/217

CSimpleQA

Coverage

2/217

ERQA

Coverage

3/217

GSM8K

Coverage

3/217

HealthBench

Coverage

3/217

HealthBench Concensus

Coverage

2/217

HealthBench Hard

Coverage

3/217

LiveCodeBench V5

Coverage

2/217

MMMLU

Coverage

3/217

MMMU Pro

Coverage

3/217

Multi‑Programming Language Evaluation

Coverage

2/217

Online Judgement Benchmark

Coverage

2/217

SWE Bench Multilingual

Coverage

2/217

USAMO 2025

Coverage

2/217

Video MMMU

Coverage

3/217

ZebraLogic

Coverage

2/217

ACEBench

Coverage

1/217

AI2D

Coverage

1/217

AutoLogi

Coverage

1/217

Balrog-AI

Coverage

0/217

BigCodeBench

Coverage

1/217

BrowseComp

Coverage

1/217

C-Eval

Coverage

1/217

ChartQA

Coverage

1/217

CNMO 2024

Coverage

1/217

DocVQA

Coverage

1/217

Dubesor LLM

Coverage

0/217

EvalPlus

Coverage

1/217

Fiction-Live Bench

Coverage

0/217

Galileo Agent

Coverage

0/217

GPQA

Coverage

1/217

IQ Bench

Coverage

0/217

MATH 500

Coverage

1/217

MathArena

Coverage

0/217

Mathvista

Coverage

1/217

MC-Bench

Coverage

0/217

METR

Coverage

0/217

Misguided Attention

Coverage

0/217

MLE-Bench

Coverage

0/217

MMLU Redux 2.0

Coverage

1/217

PaperBench

Coverage

0/217

PHYBench

Coverage

0/217

PolyMath-en

Coverage

1/217

SEAL MultiChallenege

Coverage

0/217

SmolAgents LLM

Coverage

0/217

Snake-Bench

Coverage

0/217

SOLO-Bench

Coverage

0/217

SWE Bench Live

Coverage

1/217

SWE-Lancer

Coverage

1/217

Symflower Coding

Coverage

0/217

TAU-Bench

Coverage

1/217

TriviaQA

Coverage

1/217

WeirdML

Coverage

0/217

XLANG Agent

Coverage

0/217

Benchmark Coverage & Contributions

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark

View models with this benchmark

View models needing this benchmark