使用跟进概率进行开放域对话评估
本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点,研究结果表明,使用多参考评估可以提高几种自动指标与人类判断之间的相关性,无论是对于系统输出的质量还是多样性。
Jul, 2019
本文提出了一种可靠且低成本的人类评估方法,以取代已被证明不可靠的自动评估方法,比较了与无人设定的系统相比,使用人设定对话主题的对话系统在对话质量上没有积极的贡献。
Mar, 2022
本文提出一种交互式的人工评估对话质量的方法,并介绍了一种基于自我对话的度量方式,该方式可以更好地捕捉对话模型的质量,同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较,研究表明,这种度量方式优于目前已知的所有自动化方法,同时也优于静态会话的人工评估。最后,开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。
Jun, 2019
通过分析和研究,本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征,并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时,通过大规模对话数据集的使用,证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器,但相较于人类回复,评估生成回复的困难性也得到了揭示。
Jan, 2024
该研究提出了一种基于相邻对话的自动评估模型,利用未标注对话语料库中的说话者定义不同级别的类似上下文,使用推特对话语料库进行实验,表明与其他现有评估指标相比,该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下,将该模型应用于电影对话。
Jun, 2020
本文提出了一种新技术,即自动将人工生成的参考文本扩展为一组备选参考文本的技术,该技术通过从知识源中获取可信的文本响应并对其进行调整,以使其在当前对话情境中更加符合逻辑,说明其方法可以显著提高与人工系统输出评级的自动指标的相关性。
Jun, 2021
本文提出了一种基于检索的系统和相关数据集,用于预测用户可能有的下一个问题,可以主动地帮助用户进行知识探索,引导用户进行更有意义的对话。该检索系统是在一个包含 14000 多组信息获取对话的数据集上进行训练的,该数据集包含一个有效的后继问题和一组无效候选问题。我们在 Follow-up Query Bank 数据集上训练了排名模型,并比较了监督和无监督方法的结果。结果表明,我们可以通过将有效后继问题排在更高的位置上进行检索,但进一步的知识构建可以提高排名性能。
Feb, 2023