BriefGPT.xyz
Ask
alpha
关键词
human utility
搜索结果 - 2
ACL
机器理由(未必)对人类有用吗?衡量和提高自由文本理由的人类效用
大型语言模型可生成可用理性,但其人类实用性不佳,因此我们提出了一个自动化评分系统 GEN-U 来衡量基于无人参与的人类实用性的帮助性,并最大限度地保持任务绩效。
PDF
a year ago
ACL
NoiseQA: 以用户为中心的问答挑战数据集评估
本文研究 Question-Answering 系统在实际部署中的问题,发现在回答引擎之前的管道部件可能会引入多样化且可观的错误,而且即使是针对强大的预训练 QA 模型,性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有
→
PDF
3 years ago
Prev
Next