Tau 2 Retail

Tau 2 Retail - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
Amazon	Nova 2 Pro	02 Dec 2025	92.70%	-	Yes	Source
Anthropic	Claude Opus 4.6	05 Feb 2026	91.90%	-	Yes	Source
Anthropic	Claude Sonnet 4.6	17 Feb 2026	91.70%	-	Yes	Source
Google	Gemini 3.1 Pro Preview	19 Feb 2026	90.80%	-	Yes	-
Anthropic	Claude Opus 4.5	24 Nov 2025	88.90%	Avg@5, 64k Thinking	Yes	Source
Anthropic	Claude Haiku 4.5	15 Oct 2025	83.20%	inferred alias from claude-haiku-4-5-20251001	Yes	Source
OpenAI	GPT 5.2 Chat	11 Dec 2025	82%	inferred alias from gpt-5.2-2025-12-11	Yes	Source
OpenAI	GPT 5	07 Aug 2025	81.10%	With Thinking, Pass @ 1	Yes	Source
OpenAI	GPT 5 Mini	07 Aug 2025	78.30%	High Reasoning Effort	Yes	Source
OpenAI	GPT 5.1 Chat	13 Nov 2025	77.90%	inferred alias from gpt-5.1-2025-11-13	Yes	Source
Amazon	Nova 2 Lite	02 Dec 2025	76.50%	-	Yes	Source
Qwen	Qwen 3 235B A22B Thinking 2507	-	71.90%	-	Yes	Source
Meituan	Longcat Flash Cat	-	71.27%	inferred high-confidence family alias from longcat-flash-chat (score=0.4667; benches=16)	Yes	Source
Moonshot	Kimi K2 (2025-09-05)	05 Sept 2025	70.60%	Avg@4	Yes	Source
Qwen	Qwen 3 Next 80B A3B Thinking	-	67.80%	-	Yes	Source
OpenAI	GPT 4o Audio (2025-06-03)	03 Jun 2025	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Audio (2024-12-17)	17 Dec 2024	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Transcribe Diarize	15 Oct 2025	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Search Preview	11 Mar 2025	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Audio (2024-10-01)	01 Oct 2024	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Realtime Preview (2025-06-03)	03 Jun 2025	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Transcribe	20 Mar 2025	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o (2024-08-06)	06 Aug 2024	63.40%	-	Yes	Source
OpenAI	GPT 4o Realtime Preview (2024-10-01)	01 Oct 2024	63.40%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
Nvidia	Nemotron 3 Super	11 Mar 2026	62.83%	-	Yes	Source
OpenAI	GPT 5 Nano	07 Aug 2025	62.30%	High Reasoning Effort	Yes	Source
Qwen	Qwen 3 Next 80B A3B Instruct	-	57.30%	-	Yes	Source
Nvidia	Nemotron Nano 3 30B A3B	15 Dec 2025	56.90%	-	Yes	Source

Recorded Results

Average Score

Score Range

Leading Model

Models Using This Benchmark