Leaderboard

12 scenarios, 337 rounds, 20 models, 5 frameworks. Scored by CRS (Composite Reliability Score).

Loading leaderboard data...

CRS color:≥ 6555–6545–55< 45CRS = (TCR + Robustness) / 2 | Robustness = SC × FD