系统偏好设置
调整评估裁判的判罚尺度及系统运行参数。
评估裁判标准
控制 LLM 裁判员在打分时的严格程度和逻辑。
宽松模式
提及关键词即算覆盖,不要求上下文逻辑。
标准模式
要求关键词在回答中有一定的描述或展开。
严格模式
必须有明确的数据支撑或强烈的推荐语境。
开启后,中性或负面提及将不计入“被引用率” (Inclusion Rate)。
在生成的 Excel 报表中,是否包含 AI 回答的原始片段(会增加文件体积)。
维度模板管理
预设常用的评估维度,方便在任务创建时快速导入。
执行并发控制
调整同时向大模型发起的请求数量,避免触发 API 限流。
3
建议设置在 3-5 之间。过高可能导致 DeepSeek 或 Kimi 返回 429 错误。