胡说八道基准测试浏览器
绿色表示模型明确指出了无意义内容。黄色表示部分质疑。红色表示模型让无意义内容通过了。使用筛选器查看高级模式,然后按问题并排比较响应。
筛选器
搜索
组织
推理
技术
领域
评判员(勾选以包含):
加载中...
加载中...
加载中...
类别:
模型可见性和快速操作
搜索模型
主要模型:关闭
显示所有模型
隐藏所有模型
重置所有筛选器
模型检测细分 (%)
每个条形图是连续的,分为绿色、黄色和红色,按绿色百分比排序。
选定段
清除选择
模型排行榜
排名
模型
组织
推理
绿色 %
黄色 %
红色 %
错误 %
混合(绿色/黄色/红色/错误)
行
响应查看器
问题
模型 A
模型 B
查看
比较 2
显示全部
问题正确率 (%)
全部
80-100%
60-79%
40-59%
20-39%
0-19%
随机配对
随机绿色 vs 红色
随机最佳问题
随机最差问题