AI Model Rankings 2026 — Trust Score Leaderboard

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	Gemini 2.5 Pro	Google Gemini	8.96	8.82	8.78	9.31	9.47	9.41	7.94	8.96	16 *
2	GPT-5	OpenAI	8.83	8.76	8.82	9.09	9.44	8.93	7.89	8.86	60
3	GPT-5 Mini	OpenAI	8.80	8.52	8.92	9.11	9.31	9.23	7.57	8.76	26 *
4	GPT-4.1 Nano	OpenAI	8.74	8.71	7.67	9.10	9.45	9.07	7.69	8.82	21 *
5	GPT-5.2 (Thinking)	OpenAI	8.71	8.55	8.39	8.99	9.50	8.90	7.35	8.80	185
5	GPT-5.2	OpenAI	8.71	8.50	8.54	8.96	9.48	9.02	7.45	8.74	62
7	Gemini 2.5 Flash	Google Gemini	8.67	8.68	7.78	9.06	9.45	9.28	7.16	8.86	41
8	Gemini 3 Flash	Google Gemini	8.64	8.49	8.16	9.06	9.21	9.03	7.44	8.87	51
8	GPT-4.1	OpenAI	8.64	8.56	8.34	8.85	8.90	8.96	7.61	8.84	50
10	GPT-5.1	OpenAI	8.52	8.39	8.43	8.65	9.13	8.52	8.04	8.53	23 *
11	Claude Sonnet 4.5	Anthropic	8.40	8.16	7.78	8.69	9.20	8.60	7.17	8.55	651
12	GPT-5.1 (Thinking)	OpenAI	8.37	8.40	8.05	8.74	9.10	8.67	7.01	8.51	79
13	GPT-4o	OpenAI	8.29	8.31	7.26	8.89	8.46	8.69	7.05	8.49	27 *
14	Gemini 3 Pro	Google Gemini	8.26	8.13	7.64	8.57	9.03	8.53	6.93	8.40	479
15	Jamba Large	AI21	8.20	8.05	6.10	8.55	8.82	8.64	7.45	8.14	11 *
16	Claude Opus 4.6 (Adaptive)	Anthropic	8.16	7.71	7.57	8.38	8.95	8.34	5.47	8.33	117
17	Grok 4 (Reasoning)	xAI (Grok)	8.08	8.10	7.51	8.47	8.83	8.42	7.34	8.23	142
18	Grok 4	xAI (Grok)	8.02	7.86	7.72	8.36	8.82	8.49	7.49	8.09	39
19	Grok 3 Mini	xAI (Grok)	7.76	7.73	7.50	7.95	8.29	8.92	7.15	7.61	14 *
20	GPT-5 (Generic)	OpenAI	7.72	7.87	7.21	8.17	8.37	7.87	6.37	8.00	41
21	Sonar Pro	Perplexity	7.70	7.77	7.01	8.13	8.37	8.04	6.69	7.84	67
22	Grok 4.1 (Reasoning)	xAI (Grok)	7.68	7.68	6.96	8.04	8.38	8.05	6.61	7.88	99
23	Mistral Small 3.2	Mistral	7.61	7.40	6.54	7.91	8.17	8.05	6.62	7.50	21 *
24	Claude 3.7 Sonnet	Anthropic	7.60	7.70	7.02	8.15	8.19	7.72	6.62	7.73	38
24	Claude Sonnet 4.5 (Thinking)	Anthropic	7.60	7.40	6.85	7.90	8.33	7.80	6.33	7.58	35
26	Sonar	Perplexity	7.18	7.18	3.94	7.58	7.63	7.68	6.05	7.26	19 *
27	Jamba Mini	AI21	7.12	7.00	5.00	7.38	7.69	7.47	6.19	6.99	16 *
28	Claude Sonnet 4	Anthropic	7.05	7.03	6.61	7.25	7.40	7.10	6.77	7.08	10 *
29	Sonar Reasoning Pro	Perplexity	6.59	6.40	6.15	6.87	7.27	6.76	6.23	6.39	52
30	Mistral Nemo	Mistral	6.53	6.54	5.77	6.92	7.21	6.92	5.50	6.63	12 *
31	Grok Code	xAI (Grok)	2.02	2.08	2.00	2.21	1.79	2.42	2.25	2.13	12 *
32	Magistral Small	Mistral	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	10 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for General

43 models evaluated in General queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	Gemini 2.0 Flash	Google Gemini	9.07	9.06	8.63	9.50	9.39	9.67	8.00	8.86	9 *
2	GPT-5.1	OpenAI	9.04	8.80	9.05	9.20	9.65	9.00	8.60	9.08	10 *
3	Gemini 2.5 Pro	Google Gemini	8.94	8.81	8.70	9.33	9.43	9.37	7.93	8.92	15 *
4	GPT-5 Mini	OpenAI	8.77	8.51	8.91	9.06	9.23	9.23	7.53	8.69	22 *
5	GPT-5	OpenAI	8.72	8.66	8.72	9.06	9.39	8.87	7.59	8.76	27 *
6	Gemini 2.5 Flash	Google Gemini	8.70	8.75	7.78	9.12	9.48	9.36	7.03	8.89	33
6	GPT-4.1 Nano	OpenAI	8.70	8.72	7.44	9.06	9.39	9.03	7.58	8.79	18 *
8	Gemini 3 Flash	Google Gemini	8.68	8.54	8.08	9.12	9.15	9.05	7.51	8.92	40
9	GPT-5.2 (Thinking)	OpenAI	8.63	8.53	8.28	8.94	9.36	8.91	7.11	8.70	49
10	Gemini 2.5 Flash Lite	Google Gemini	8.59	8.30	8.13	8.80	8.80	8.80	8.50	8.50	5 *
11	GPT-5.2	OpenAI	8.50	8.46	8.29	8.84	9.20	8.88	7.15	8.51	28 *
12	GPT-4.1	OpenAI	8.48	8.57	8.22	8.65	8.52	8.72	7.74	8.77	31
13	Claude Sonnet 4.5	Anthropic	8.28	8.11	7.70	8.63	8.94	8.52	7.09	8.44	186
13	GPT-4o	OpenAI	8.28	8.37	7.39	8.89	8.29	8.63	7.50	8.43	19 *
15	Jamba Large	AI21	8.23	7.95	6.63	8.50	8.80	8.60	7.55	8.10	10 *
16	Gemini 3 Pro	Google Gemini	8.11	8.01	7.42	8.41	8.87	8.46	6.70	8.30	136
17	Grok 4	xAI (Grok)	7.81	7.67	7.96	8.17	8.53	8.68	7.43	7.87	15 *
18	Grok 4 (Reasoning)	xAI (Grok)	7.80	7.86	7.17	8.25	8.56	8.31	7.03	8.07	71
19	Sonar	Perplexity	7.69	7.62	4.92	8.12	8.06	8.18	6.53	7.76	17 *
20	Grok 3 Mini	xAI (Grok)	7.56	7.56	6.63	7.82	8.08	8.73	7.09	7.38	12 *
21	GPT-5.1 (Thinking)	OpenAI	7.55	7.72	7.00	8.04	8.22	7.98	5.81	7.69	25 *
22	Sonar Pro	Perplexity	7.51	7.59	6.80	7.96	8.19	7.90	6.31	7.68	36
22	Sonar Reasoning Pro	Perplexity	7.51	7.18	7.08	7.77	8.27	7.61	7.12	7.20	22 *
22	Jamba Mini	AI21	7.51	7.33	5.83	7.83	7.96	7.88	6.75	7.33	12 *
25	Mistral Small 3.2	Mistral	7.47	7.21	6.20	7.72	8.03	7.88	6.71	7.34	17 *
26	Claude 3.7 Sonnet	Anthropic	7.32	7.46	6.85	7.93	7.83	7.39	6.17	7.45	23 *
26	Claude Opus 4.6 (Adaptive)	Anthropic	7.32	6.95	6.63	7.83	7.86	7.88	5.43	7.29	21 *
28	Grok 4.1 (Reasoning)	xAI (Grok)	7.25	7.25	6.52	7.58	7.83	7.64	6.12	7.48	41
29	GPT-5 (Generic)	OpenAI	7.09	7.32	6.40	7.60	7.72	7.24	5.56	7.44	25 *
30	Command R+	Cohere	6.78	6.78	5.60	6.96	6.88	6.84	6.55	6.75	8 *
31	Claude Sonnet 4	Anthropic	6.67	6.66	6.44	6.88	6.94	6.75	6.40	6.72	8 *
32	Command A	Cohere	6.55	6.40	5.50	6.64	6.79	6.64	6.26	6.53	7 *
33	Command R	Cohere	6.34	6.36	5.40	6.43	6.50	6.50	6.07	6.36	7 *
34	Mistral Nemo	Mistral	6.21	6.05	5.72	6.50	6.75	6.50	5.35	6.30	10 *
35	Mistral Medium	Mistral	6.20	6.00	6.25	6.42	6.58	6.25	5.75	6.17	6 *
36	Command R 7B	Cohere	5.72	5.66	5.60	5.72	5.96	5.72	5.50	5.71	8 *
37	Mistral Large	Mistral	5.26	5.04	5.29	5.43	5.57	5.29	5.00	5.21	7 *
38	Claude Sonnet 4.5 (Thinking)	Anthropic	5.23	5.15	4.00	5.40	5.65	5.35	4.85	5.17	10 *
39	Magistral Medium	Mistral	4.69	4.86	4.50	5.36	5.50	5.14	1.86	5.14	7 *
40	Grok 4.1 (Non-Reasoning)	xAI (Grok)	3.90	3.83	3.67	4.06	4.22	4.17	3.44	3.89	9 *
41	Grok 4 (Non-Reasoning)	xAI (Grok)	2.92	2.83	2.83	3.08	3.17	3.33	2.25	2.92	6 *
42	Grok Code	xAI (Grok)	1.38	1.45	1.36	1.59	1.09	1.82	1.36	1.50	11 *
43	Magistral Small	Mistral	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	10 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Business

9 models evaluated in Business queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	GPT-4.1	OpenAI	8.97	8.50	8.63	9.19	9.38	9.63	6.00	8.75	8 *
2	GPT-5.2 (Thinking)	OpenAI	8.79	8.82	8.59	9.18	9.41	8.86	7.65	8.95	11 *
3	GPT-5.1 (Thinking)	OpenAI	8.78	8.83	8.33	9.00	9.58	9.17	7.58	9.00	6 *
4	Claude Sonnet 4.5	Anthropic	8.45	8.39	7.70	8.79	9.23	8.63	7.46	8.71	28 *
5	Grok 4 (Reasoning)	xAI (Grok)	8.26	8.30	7.80	8.50	8.90	8.35	7.86	8.33	10 *
6	Grok 4.1 (Reasoning)	xAI (Grok)	8.25	8.05	7.27	8.73	9.18	8.50	7.45	8.45	11 *
7	Claude Sonnet 4.5 (Thinking)	Anthropic	7.95	8.00	6.92	8.50	8.50	8.17	7.42	8.17	6 *
8	Gemini 3 Pro	Google Gemini	7.90	8.06	7.36	8.18	8.39	8.02	7.26	8.18	22 *
9	GPT-5.1	OpenAI	7.43	7.43	7.14	7.57	8.00	7.43	7.06	7.54	7 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Technical

15 models evaluated in Technical queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	GPT-5	OpenAI	8.94	8.81	8.89	9.15	9.58	9.00	8.21	8.92	24 *
2	GPT-4.1	OpenAI	8.85	8.56	8.25	9.13	9.69	9.25	7.67	9.06	8 *
3	GPT-5.2 (Thinking)	OpenAI	8.72	8.54	8.48	9.06	9.53	8.83	7.48	8.93	29 *
4	GPT-5 (Generic)	OpenAI	8.71	8.65	8.56	9.05	9.50	8.85	7.55	8.87	10 *
5	GPT-5.1 (Thinking)	OpenAI	8.70	8.82	8.54	8.97	9.50	8.85	7.16	8.88	17 *
5	Gemini 3 Flash	Google Gemini	8.70	8.60	8.20	8.90	9.60	9.20	8.10	8.90	5 *
7	Claude Sonnet 4.5	Anthropic	8.42	8.24	7.85	8.70	9.25	8.64	7.26	8.60	111
8	Grok 4 (Reasoning)	xAI (Grok)	8.33	8.35	7.77	8.65	9.13	8.51	7.58	8.34	39
9	Grok 4.1 (Reasoning)	xAI (Grok)	8.17	8.29	7.33	8.46	9.04	8.63	7.17	8.33	12 *
10	Gemini 3 Pro	Google Gemini	8.10	8.03	7.54	8.43	8.87	8.39	6.87	8.22	93
11	Grok 4	xAI (Grok)	8.07	7.98	7.15	8.46	8.96	8.50	7.42	8.19	13 *
12	Sonar Pro	Perplexity	7.95	8.08	7.12	8.42	8.85	8.35	6.81	8.02	13 *
13	Claude 3.7 Sonnet	Anthropic	7.75	7.79	6.89	8.40	8.54	8.00	6.99	7.93	7 *
14	Claude Opus 4.6 (Adaptive)	Anthropic	7.65	7.50	6.64	8.00	8.68	8.36	4.00	8.27	11 *
15	Sonar Reasoning Pro	Perplexity	6.72	6.63	6.31	7.03	7.41	6.97	6.19	6.44	16 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Coding

13 models evaluated in Coding queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	GPT-5	OpenAI	8.94	9.00	9.08	9.17	9.25	9.08	7.75	9.17	6 *
2	Claude Sonnet 4.5 (Thinking)	Anthropic	8.91	8.42	8.38	9.21	9.71	9.04	0.00	8.71	12 *
3	GPT-5.2 (Thinking)	OpenAI	8.88	8.65	8.64	9.10	9.72	9.03	7.58	8.92	71
4	GPT-5.1 (Thinking)	OpenAI	8.86	8.64	8.68	9.13	9.53	9.05	8.01	8.96	20 *
5	GPT-5.2	OpenAI	8.84	8.41	8.47	8.94	9.66	9.19	7.72	8.99	16 *
6	Claude Sonnet 4.5	Anthropic	8.64	8.29	7.97	8.89	9.53	8.80	7.33	8.75	275
7	Grok 4 (Reasoning)	xAI (Grok)	8.57	8.44	8.43	8.75	9.18	8.71	7.91	8.62	11 *
8	Gemini 3 Pro	Google Gemini	8.53	8.32	7.95	8.85	9.34	8.74	7.09	8.63	174
9	Grok 4.1 (Reasoning)	xAI (Grok)	8.50	8.40	7.89	8.82	9.28	8.75	7.64	8.51	18 *
10	Claude Opus 4.6 (Adaptive)	Anthropic	8.37	7.84	7.81	8.49	9.19	8.45	5.25	8.53	75
11	Grok 4	xAI (Grok)	8.32	7.94	8.31	8.56	9.19	8.31	7.69	8.25	8 *
12	Sonar Pro	Perplexity	8.26	8.33	7.50	8.72	8.56	8.50	7.69	8.50	9 *
13	Sonar Reasoning Pro	Perplexity	7.79	7.70	7.50	8.00	8.40	8.00	7.40	7.90	5 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Creative

2 models evaluated in Creative queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	Claude Sonnet 4.5	Anthropic	8.64	8.44	7.81	9.06	9.81	9.38	6.30	8.75	8 *
2	Gemini 3 Pro	Google Gemini	7.98	7.75	7.68	8.17	8.75	8.21	5.58	7.96	12 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Personal

3 models evaluated in Personal queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	GPT-5.1 (Thinking)	OpenAI	8.72	8.50	8.10	9.00	9.80	9.00	7.70	8.90	5 *
2	Gemini 3 Pro	Google Gemini	8.48	8.22	7.56	8.94	9.33	9.17	7.38	8.50	9 *
3	Claude Sonnet 4.5	Anthropic	8.23	8.00	7.33	8.58	9.08	8.67	7.60	8.33	6 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Legal

3 models evaluated in Legal queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	Gemini 3 Pro	Google Gemini	8.50	8.37	7.94	8.78	9.26	8.78	8.00	8.48	9 *
2	Grok 4 (Reasoning)	xAI (Grok)	8.21	8.17	7.50	8.83	8.92	8.58	7.20	8.33	6 *
3	Claude Sonnet 4.5	Anthropic	7.66	7.56	7.28	7.78	8.28	7.78	7.00	7.61	9 *

* Low sample size (<30 evaluations) — ranking may shift with more data

Best AI Models for Research

6 models evaluated in Research queries. See full domain analysis →

Rank	Model	Provider	Trust Score	RC	FA	SC	RF	ST	ED	HL	Evals
1	Claude Opus 4.6 (Adaptive)	Anthropic	8.92	8.70	8.00	9.00	9.80	9.00	8.00	9.20	5 *
2	GPT-5.2 (Thinking)	OpenAI	8.02	8.00	7.54	8.29	8.82	8.14	6.73	8.19	14 *
3	Gemini 3 Pro	Google Gemini	8.01	7.90	7.10	8.35	8.88	8.23	6.97	8.21	24 *
4	Claude Sonnet 4.5	Anthropic	6.99	6.84	6.30	7.18	7.68	7.21	6.24	7.10	28 *
5	Grok 4.1 (Reasoning)	xAI (Grok)	6.93	7.07	6.21	7.32	7.54	7.29	5.58	7.21	14 *
6	Sonar Reasoning Pro	Perplexity	3.25	3.21	2.86	3.57	3.79	3.43	3.00	3.29	7 *

* Low sample size (<30 evaluations) — ranking may shift with more data

AI Model Trust Score Leaderboard

Best AI Models for General

Best AI Models for Business

Best AI Models for Technical

Best AI Models for Coding

Best AI Models for Creative

Best AI Models for Personal

Best AI Models for Legal

Best AI Models for Research

Test AI Models Yourself