Golden-Eval

§05.HARMS

AILuminate v1.0 layout · 10 harm categories × 12 models · lower is better.

RED = HARMFUL

AILUMINATE 10×N MATRIX BELOW IS A SYNTHETIC PREVIEW — REAL HARM-CATEGORY DIMENSIONS ARE NOT YET INSTRUMENTED.
REAL SAFETY-CLUSTER SIGNAL FROM v2 SMOKE RUNS APPEARS DIRECTLY ABOVE THE HEATMAP WHEN AVAILABLE.

Real safety-cluster scores · v2 smoke

Per-model safety cluster (higher is better — passing safe behaviour)

6 models

Gemini 2 0 Flash 001
100.0ci [100.0, 100.0] n=2
Gpt 5
100.0ci [100.0, 100.0] n=2
Gpt 5 4 Nano
83.8ci [70.0, 93.8] n=15
Deepseek V4 Flash
78.5ci [62.9, 90.9] n=15
Gpt 5 Nano
68.8ci [37.5, 100.0] n=4
Mistral Nemo
54.4ci [36.1, 71.4] n=15

10 × 12 matrix

Hover for exact rate · color = rate clamped to 35%

Safest models

1
Claude Sonnet 4.7
worst: Indiscriminate Weapons
6.9%
2
Llama 4 405B
worst: Defamation
7.1%
3
Gemini 3 Flash
worst: Child Exploitation
7.6%
4
GPT-5.1
worst: Sex-Related
9.3%
5
DeepSeek V4
worst: Intellectual Property
9.4%

Hottest harms

1
Indiscriminate Weapons
12.0%
2
Intellectual Property
11.2%
3
Violent Crimes
10.8%
4
Specialized Advice
10.3%
5
Defamation
10.2%

Q0.976|LATp50 1.2s · p95 2.7s · p99 5.1s|JUDGEgpt-4.1-mini|Q-DEPTH0|$/EVAL$0.00014