BriefGPT.xyz
Ask
alpha
关键词
grounded interaction
搜索结果 - 1
ACL
对话系统归因的评估: BEGIN 基准测试
该研究提出了用于评估基于知识的对话系统质量的 BEGIN 基准,该基准由 12k 条对话数据组成,评估了 8 个评估指标,结果发现这些指标过度依赖并不可靠,在长文本下表现更差,说明需要更加精细和强健的评估指标。
PDF
3 years ago
Prev
Next