BriefGPT.xyz
Ask
alpha
关键词
reference-free evaluators
搜索结果 - 1
评估无法评估的内容:无法评估生成响应的质量
本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性,并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。
PDF
a year ago
Prev
Next