Unified model, provider, and gateway data for teams building with AI APIs.

Explore

Models
Playground
Compare
Providers
Apps
Rankings

Build

Documentation
API Reference
Quickstart
SDKs
Status

Company

Announcements
Pricing
Works With
Support
Privacy
Terms

Community

Discord
GitHub
Reddit
LinkedIn
X

© 2025 • AI Stats

Spotted a data issue or broken page?Open an issueorcontact support

Models Playground Compare Providers Apps Rankings

Models Playground Compare Providers Apps Rankings

Benchmarks

230 models

149 models

149 models

139 models

136 models

133 models

121 models

119 models

118 models

Humanity's Last Exam

103 models

95 models

95 models

91 models

84 models

84 models

NYT Connections

81 models

80 models

77 models

71 models

70 models

67 models

67 models

66 models

66 models

61 models

Elimination Game

61 models

59 models

58 models

LiveCodeBench V6

56 models

53 models

52 models

52 models

51 models

50 models

48 models

48 models

48 models

47 models

46 models

45 models

44 models

44 models

44 models

43 models

43 models

43 models

43 models

43 models

43 models

42 models

41 models

39 models

39 models

39 models

38 models

Terminal Bench 2.0

38 models

37 models

37 models

Hallusion Bench

36 models

36 models

36 models

35 models

35 models

35 models

34 models

33 models

33 models

32 models

31 models

Creative Story Writing

31 models

31 models

OCRBench-V2 (en)

31 models

31 models

30 models

Thematic Generalisation

30 models

Aider-Polyglot Edit

29 models

29 models

Tau Bench (Retail)

29 models

29 models

28 models

28 models

Graphwalks bfs <128k

28 models

Graphwalks parents <128k

28 models

28 models

28 models

28 models

27 models

27 models

27 models

LiveBench 20241125

27 models

OCRBench-V2 (zh)

27 models

Tau Bench (Airline)

27 models

26 models

25 models

Creative Writing v3

25 models

25 models

SWE Bench Multilingual

25 models

24 models

24 models

FACTS Grounding

23 models

23 models

22 models

22 models

22 models

21 models

21 models

21 models

20 models

20 models

20 models

19 models

19 models

19 models

LiveCodeBench V5

18 models

18 models

VideoMME w sub.

18 models

VideoMME w/o sub.

18 models

17 models

AndroidWorld_SR

17 models

Global-MMLU-Lite

17 models

17 models

17 models

16 models

16 models

16 models

16 models

OmniDocBench 1.5

16 models

16 models

15 models

15 models

15 models

15 models

15 models

Scale MCP Atlas

15 models

14 models

14 models

14 models

14 models

14 models

OpenAI-MRCR: 2 needle 128k

13 models

13 models

12 models

LiveCodeBench Pro

12 models

MRCR v2 (8-needle)

12 models

12 models

12 models

Vending Bench 2

12 models

12 models

11 models

Android Control High_EM

11 models

Android Control Low_EM

11 models

11 models

ComplexFuncBench

11 models

11 models

Internal API instruction following (hard)

11 models

11 models

11 models

11 models

11 models

10 models

10 models

10 models

10 models

10 models

10 models

9 models

9 models

9 models

HealthBench Hard

9 models

MMLongBench-Doc

9 models

9 models

9 models

8 models

8 models

8 models

BrowseComp Long Context 128k

8 models

8 models

8 models

IMO Answer Bench

8 models

8 models

8 models

8 models

MobileMiniWob++_SR

8 models

Multi-SWE-Bench

8 models

Online Judgement Benchmark

8 models

OpenAI MRCR 8 Needle 128k

8 models

OpenAI-MRCR: 2 needle 128k

8 models

8 models

RefSpatialBench

8 models

8 models

8 models

8 models

8 models

7 models

Common Voice 15

7 models

7 models

7 models

FActScore hallucination rate

7 models

7 models

7 models

GiantSteps Tempo

7 models

LongFact-Concepts hallucination rate

7 models

LongFact-Objects hallucination rate

7 models

7 models

7 models

7 models

7 models

7 models

7 models

7 models

7 models

7 models

7 models

7 models

OmniBench Music

7 models

7 models

7 models

7 models

7 models

7 models

7 models

7 models

6 models

6 models

Artificial Analysis Intelligence Index v4

6 models

6 models

6 models

6 models

BrowseComp Long Context 256k

6 models

CharXiv-Reasoning

6 models

6 models

6 models

6 models

FinanceAgent v1.1

6 models

6 models

6 models

6 models

OpenAI-MRCR: 2 needle 256k

6 models

6 models

6 models

6 models

6 models

6 models

6 models

5 models

5 models

5 models

EmbSpatialBench

5 models

5 models

5 models

5 models

5 models

5 models

5 models

5 models

5 models

5 models

5 models

4 models

4 models

4 models

4 models

4 models

4 models

FullStackBench en

4 models

FullStackBench zh

4 models

Graphwalks BFS >128k

4 models

Graphwalks parents >128k

4 models

4 models

4 models

4 models

4 models

4 models

MRCR 1M (pointwise)

4 models

4 models

OpenAI MRCR 8 Needle 1m

4 models

4 models

4 models

Scale MultiChallenge

4 models

4 models

Terminal Bench Hard

4 models

4 models

4 models

+ Thinking with Tracking

3 models

3 models

3 models

3 models

3 models

3 models

3 models

BFCL Overall FC V4

3 models

BFCL_v3_MultiTurn

3 models

3 models

3 models

3 models

3 models

3 models

3 models

Codeforces(no tool)

3 models

3 models

3 models

3 models

3 models

Cybersecurity CTFs

3 models

3 models

DeepPlanning v1.1 Avg Accuracy

3 models

DeepPlanning v1.1 Shopping Case Accuracy

3 models

DeepPlanning v1.1 Shopping Match Score

3 models

DeepPlanning v1.1 Travel Case Accuracy

3 models

DeepPlanning v1.1 Travel Composite Score

3 models

DeepPlanning v1.1 Travel CS Score

3 models

DeepPlanning v1.1 Travel PS Score

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

FrontierSci-olympiad

3 models

FrontierSci-research

3 models

FSC-147â†“

3 models

3 models

3 models

3 models

HLE (no tool, text only)

3 models

3 models

3 models

HumanEval-Average

3 models

HumanEvalFIM-Average

3 models

Ï„ 2 -Bench (telecom)

3 models

IMOAnswerBench (no tool)

3 models

3 models

3 models

3 models

3 models

3 models

LongBench v2 (128k)

3 models

3 models

LongFact-Concepts

3 models

LongFact-Objects

3 models

3 models

3 models

3 models

MathArenaApex (shortlist)

3 models

3 models

3 models

3 models

3 models

3 models

3 models

MEGA XStoryCloze

3 models

Minerva â€¡

3 models

3 models

3 models

3 models

MMLU Multilingual

3 models

MMSIBench (circular)

3 models

3 models

MRCR v2 (8-needle)

3 models

MultiChallenge (o3-mini grader)

3 models

Natural Questions

3 models

3 models

3 models

3 models

OmniDocBench 1.5 â†“

3 models

3 models

3 models

3 models

PhyX (openended)

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

SimpleQA Verified

3 models

3 models

3 models

3 models

Superchem (text-only)

3 models

3 models

3 models

3 models

3 models

3 models

VideoHolmes â€¡

3 models

VideoReasonBench

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

3 models

WMT24++ MetricX

3 models

XLRS-Bench (macro)

3 models

ZeroBench (main)

3 models

2 models

2 models

2 models

2 models

2 models

2 models

BrowseComp Long Context 128k

2 models

2 models

Chinese SimpleQA

2 models

2 models

2 models

2 models

CursorBench 3.1

2 models

2 models

DeepResearchBench

2 models

2 models

2 models

2 models

FACTS Benchmark Suite

2 models

FACTS Parametric

2 models

2 models

2 models

2 models

2 models

HealthBench Concensus

2 models

2 models

2 models

2 models

Ï„ 2 -Bench (retail)

2 models

2 models

2 models

Investment Banking Modeling

2 models

LiveCodeBench Coding

2 models

LiveCodeBench(01-09)

2 models

LongCodeBench 1M

2 models

Minedojo Verified

2 models

2 models

2 models

2 models

2 models

Multilingual MMLU

2 models

2 models

NL2Repo (Pass@1)

2 models

2 models

2 models

OpenAI-MRCR: 2 needle 1M

2 models

2 models

2 models

ResearchRubrics

2 models

2 models

SpreadsheetBench Verified

2 models

2 models

2 models

2 models

2 models

2 models

2 models

2 models

2 models

2 models

2 models

2 models

1 model

AI2 Reasoning Challenge (ARC)

1 model

1 model

1 model

1 model

1 model

Arena Chat Rank

1 model

Arena Search Rank

1 model

1 model

Artificial Analysis

1 model

Artificial Analysis Text-to-Video Rank

1 model

1 model

1 model

BIG-Bench Extra Hard

1 model

1 model

1 model

1 model

BrowseComp Long Context 256k

1 model

1 model

CC-Bench-V2 Backend

1 model

CC-Bench-V2 Frontend

1 model

CC-Bench-V2 Repo Exploration

1 model

Chest ImaGenome Anatomy IOU

1 model

CheXpert CXR Top-5 Macro F1

1 model

CloningScenarios

1 model

1 model

1 model

CT Dataset 1 Macro Accuracy

1 model

CTF Challenge Tasks

1 model

CXR14 3-Condition Macro F1

1 model

1 model

1 model

1 model

1 model

EyePACS Accuracy

1 model

FinSearchComp T2&T3

1 model

FinSearchComp-T3

1 model

1 model

1 model

FLTEval Pass@16

1 model

1 model

1 model

1 model

1 model

1 model

Graphwalks BFS 1M F1

1 model

Graphwalks BFS 256K F1

1 model

Graphwalks Parents 1M F1

1 model

Graphwalks Parents 256K F1

1 model

1 model

1 model

1 model

1 model

1 model

1 model

Instruct HumanEval

1 model

IVEBench Consistency vs Kling o1

1 model

IVEBench Consistency vs Runway Aleph

1 model

IVEBench Instruction Following vs Kling o1

1 model

IVEBench Instruction Following vs Runway Aleph

1 model

IVEBench Overall vs Kling o1

1 model

IVEBench Overall vs Runway Aleph

1 model

1 model

LiveCodeBench v5 24.12-25.2

1 model

1 model

1 model

1 model

1 model

MedXpertQA Accuracy

1 model

1 model

1 model

MIMIC CXR Top-5 Macro F1

1 model

MiMo Coding Bench

1 model

1 model

1 model

1 model

1 model

1 model

1 model

1 model

MMMU (validation)

1 model

1 model

1 model

1 model

1 model

MRI Dataset 1 Macro Accuracy

1 model

MS-CXR-T Macro Accuracy

1 model

1 model

OctoCodingBench

1 model

1 model

1 model

1 model

1 model

1 model

OpenAI MRCR v2 (8-needle)

1 model

1 model

1 model

1 model

PathMCQA Accuracy

1 model

1 model

1 model

RoboSpatialHome

1 model

1 model

ScienceQA Visual

1 model

1 model

1 model

1 model

1 model

SLAKE Closed-Subset Accuracy

1 model

SLAKE Tokenized F1

1 model

1 model

1 model

SWE-Bench Multimodal

1 model

1 model

1 model

1 model

1 model

Terminal Bench 2.1

1 model

Uniform Bar Exam

1 model

US-DermMCQA Accuracy

1 model

1 model

1 model

1 model

1 model

1 model

VIBE Simulation

1 model

1 model

Virology Capabilities Test

1 model

1 model

VQA-RAD Closed-Subset Accuracy

1 model

VQA-RAD Tokenized F1

1 model

1 model

1 model

1 model

1 model

1 model

1 model

0 models

0 models

Fiction-Live Bench

0 models

0 models

0 models

0 models

0 models

0 models

Misguided Attention

0 models

0 models

SEAL MultiChallenege

0 models

0 models

0 models

0 models

Symflower Coding

0 models

0 models

0 models