May, 2023

机器理由(未必)对人类有用吗?衡量和提高自由文本理由的人类效用

TL;DR大型语言模型可生成可用理性,但其人类实用性不佳,因此我们提出了一个自动化评分系统GEN-U来衡量基于无人参与的人类实用性的帮助性,并最大限度地保持任务绩效。