自动评估人机交互问答的IQA-EVAL
本文对目前最先进的对话问答系统进行了首次的大规模人类评估,发现人类与机器之间的对话存在显著差异。此外,基于预测历史的问题重写机制能够更好地与人类判断相一致。通过研究各种建模策略,讨论了构建更好的对话问答系统的未来方向。
Dec, 2021
本研究针对认知智能领域中的Open Question Answering任务进行评估,提出了QA Evaluation任务和相应的数据集,在考虑到自动评估方法的局限性的基础上,采用人工评估来更准确地衡量基于人工智能的答案的准确性和F1分数,并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷,最终生成的数据集有望促进更有效的自动评估工具的发展。
May, 2023
本文提出了LLM-Eval,一种针对使用大型语言模型(LLM)的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面,LLM-Eval可以在单个模型调用中进行。我们对LLM-Eval在各种基准数据集上的性能进行了全面评估,表明它相对于最先进的评估方法具有高效性和适应性。同时,该分析还强调了选择适当的LLM和解码策略以获得准确评估结果的重要性。LMM-Eval为评估开放领域对话系统提供了一种多功能且强大的解决方案,可以简化评估过程并在不同场景中提供一致的性能。
May, 2023
通过多代理辩论框架,构建了一个名为ChatEval的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明ChatEval不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。
Aug, 2023
为应对可扩展且智能的问答挑战,我们引入了一种创新解决方案,利用开源的大型语言模型(LLMs)来确保数据隐私。我们在一个入门计算机科学课程的 Piazza 数据集上进行了实验,并对一个小的子集进行了人工评估和自动 LLM 评估。我们初步发现通过多种建模技术能够将答案的质量提升33%,而 RAG 是一个有影响力的改进。这项工作为开发适用于在线问答平台的智能 QA 助手 ChaTA 打下了基础。
Nov, 2023
对话问答系统使用大规模语言模型进行模拟和交互,提出了一种基于零-shot学习的模拟框架,通过教师-学生互动模式实现指定主题下的问题和回答生成。通过评估教师和学生模型的性能并比较人类生成对话与模型生成对话的差异,揭示了使用语言模型进行 CQA 交互模拟的有效性和表现。
Dec, 2023
为了加快语言模型作为对话助手的发展,我们提出了一种新的自动评估任务:HumanRankEval(HRE)。它由一个大规模、多样化和高质量的问题集组成,每个问题都有几个由人类撰写和评分的答案。通过对HRE排列这些答案并计算它们与相应人类排名的相关性,我们支持了HRE的有效性,并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了HRE与人类判断相关,并且在指导调整后对模型变化特别敏感。
May, 2024
聊天机器人的评估是一个重要问题,本研究介绍了一种综合评估机制,该机制结合了人类评估和基于LLM的评估,并通过实验证明基于因子的评估在LLM应用中提供更好的洞察力,进一步加强了在主要功能不是直接检索的关键空间中使用人类评估的论点。
Jun, 2024
本研究解决了当前开放式任务评估方法不足的问题,提出了一种参考引导判决方法,利用多个大语言模型作为评审者自动评估生成文本。实验表明,该方法显著提高了评估的可靠性和准确性,并与人类评估结果相关性强,成为传统指标和人类判断的有效替代方案。
Aug, 2024
本研究针对医学问答系统中人类评估时间长、成本高的问题,探讨了大型语言模型(LLMs)在自动化评估响应中的潜力。研究表明,LLMs能够可靠地复制人类评估的结果,尽管仍需进一步研究以应对更复杂的问题。
Sep, 2024