胡说八道基准测试浏览器

绿色表示模型明确指出了无意义内容。黄色表示部分质疑。红色表示模型让无意义内容通过了。使用筛选器查看高级模式,然后按问题并排比较响应。

筛选器

评判员(勾选以包含):
类别:
模型可见性和快速操作

模型检测细分 (%)

每个条形图是连续的,分为绿色、黄色和红色,按绿色百分比排序。

选定段

模型排行榜

排名 模型 组织 推理 绿色 % 黄色 % 红色 % 错误 % 混合(绿色/黄色/红色/错误)

响应查看器