Tau 2 Telecom

Tau 2 Telecom - Benchmark Leaderboard & Model Performance | AI Stats

Models Using This Benchmark

Organisation	Model	Reported	Top Score	Info	Self Reported	Source
Anthropic	Claude Opus 4.6	05 Feb 2026	99.30%	-	Yes	Source
Google	Gemini 3.1 Pro Preview	19 Feb 2026	99.30%	-	Yes	-
OpenAI	GPT 5.4	05 Mar 2026	98.90%	-	Yes	Source
OpenAI	GPT 5 Pro	07 Aug 2025	98.90%	inferred family alias from gpt-5.4 (score=0.4083; benches=19)	Yes	Source
OpenAI	GPT 5 Search API	14 Oct 2025	98.90%	inferred family alias from gpt-5.4 (score=0.3050; benches=19)	Yes	Source
OpenAI	GPT 5.2 Chat	11 Dec 2025	98.70%	inferred alias from gpt-5.2-2025-12-11	Yes	Source
z.AI	GLM 5 Turbo	15 Mar 2026	98.50%	Artificial Analysis structured model metrics	No	Source
Anthropic	Claude Opus 4.5	24 Nov 2025	98.20%	Avg@5, 64k Thinking	Yes	Source
OpenAI	GPT 5.5	23 Apr 2026	98%	Original prompts	Yes	Source
xAI	Grok 4.3	30 Apr 2026	98%	-	No	Source
Anthropic	Claude Sonnet 4.6	17 Feb 2026	97.90%	-	Yes	Source
Xiaomi	MiMo V2 Pro	18 Mar 2026	96.80%	-	Yes	Source
Xiaomi	MiMo V2 TTS	18 Mar 2026	96.80%	inferred modality/version alias from mimo-v2-pro	Yes	Source
OpenAI	GPT 5	07 Aug 2025	96.70%	With Thinking, Pass @ 1	Yes	Source
OpenAI	GPT 5.1 Chat	13 Nov 2025	95.60%	inferred alias from gpt-5.1-2025-11-13	Yes	Source
Arcee AI	Trinity Large Thinking	01 Apr 2026	94.70%	Hugging Face model card benchmark table (arcee-ai/Trinity-Large-Thinking)	Yes	Source
Amazon	Nova 2 Pro	02 Dec 2025	94.50%	-	Yes	Source
OpenAI	GPT 5.4 Mini	17 Mar 2026	93.40%	-	Yes	Source
xAI	Grok 4.20	17 Feb 2026	93%	Artificial Analysis structured model metrics	No	Source
OpenAI	GPT 5.4 Nano	17 Mar 2026	92.50%	-	Yes	Source
MiniMax	MiniMax M2	27 Oct 2025	87%	-	Yes	-
MiniMax	MiniMax M2 Her	24 Jan 2026	87%	inferred modality/version alias from minimax-m2	Yes	-
MiniMax	MiniMax M2.1	23 Dec 2025	87%	-	Yes	Source
Upstage	Solar Pro 3 (2026-01-26)	26 Jan 2026	86.30%	Artificial Analysis structured model metrics	No	Source
Cohere	Command A+	20 May 2026	85%	Compared with Command A Reasoning at 37%	Yes	Source
Anthropic	Claude Haiku 4.5	15 Oct 2025	83%	inferred alias from claude-haiku-4-5-20251001	Yes	Source
Amazon	Nova 2 Lite	02 Dec 2025	76%	-	Yes	Source
OpenAI	GPT 5 Mini	07 Aug 2025	74.10%	High Reasoning Effort	Yes	Source
Meituan	Longcat Flash Cat	-	73.68%	inferred high-confidence family alias from longcat-flash-chat (score=0.4667; benches=16)	Yes	Source
Moonshot	Kimi K2 (2025-09-05)	05 Sept 2025	65.80%	Avg@4	Yes	Source
Nvidia	Nemotron 3 Super	11 Mar 2026	64.36%	-	Yes	Source
Qwen	Qwen 3 235B A22B Thinking 2507	-	45.60%	-	Yes	Source
Qwen	Qwen 3 Next 80B A3B Thinking	-	43.90%	-	Yes	Source
Nvidia	Nemotron Nano 3 30B A3B	15 Dec 2025	42.20%	-	Yes	Source
OpenAI	GPT 5 Nano	07 Aug 2025	35.50%	High Reasoning Effort	Yes	Source
OpenAI	GPT 4o Audio (2025-06-03)	03 Jun 2025	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Realtime Preview (2024-10-01)	01 Oct 2024	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Search Preview	11 Mar 2025	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Transcribe Diarize	15 Oct 2025	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Audio (2024-10-01)	01 Oct 2024	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Transcribe	20 Mar 2025	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Audio (2024-12-17)	17 Dec 2024	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o Realtime Preview (2025-06-03)	03 Jun 2025	23.50%	inferred modality/version alias from gpt-4o-2024-08-06	Yes	Source
OpenAI	GPT 4o (2024-08-06)	06 Aug 2024	23.50%	-	Yes	Source
Qwen	Qwen 3 Next 80B A3B Instruct	-	13.20%	-	Yes	Source

Recorded Results

Average Score

Score Range

Leading Model

Models Using This Benchmark