📋 添加测试集 (最多 50 个)
📦 模型池
⚔️ 选择对比模型
从左侧模型池中选择两个模型进行 PK。每次运行时,系统会自动随机交换左右位置以消除偏差。
VS
✅ 配置已就绪
进度: 0 / 0
请先在“测试集”和“模型配置”中完成设置,然后点击“一键运行全部”。
📊 评估报告
📊 总体胜率
Left
0%
Right
0%
平局: 0
⚠️ 注意: 左右位置已在测试中随机交换,此结果已消除位置偏差。
🕸️ 能力雷达图
⚙️ 操作
📋 逐条评估明细
| # | Prompt / 标签 | 胜者 | 性能指标 | 详情 |
|---|