REAM#:面向开放域对话生成的参考评估指标提升方法
大视觉语言模型(LVLMs)在自然图像和文本数据的各种任务中取得了卓越的性能,在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展,但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集,即医学视觉幻觉测试(MedVH),以评估特定领域 LVLMs 的幻觉。MedVH 包括五个任务,用于评估 LVLMs 在医学上下文中的幻觉,包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用 LVLMs 和医学 LVLMs 进行了广泛实验,发现尽管医学 LVLMs 在标准医学任务上表现出了很好的性能,但它们特别容易产生幻觉,通常比通用模型更容易产生幻觉,这引发了对这些特定领域模型可靠性的重大担忧。对于医学 LVLMs 在真实世界应用中真正有价值,它们不仅必须准确整合医学知识,还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。
Jul, 2024
本文研究使用大规模预训练语言模型(PLMs)在高资源语言中用于开放领域对话系统的语言可移植性策略,主要以法语作为目标低资源语言,通过不同方法评估在目标语言中使用 PLMs 的性能,包括神经机器翻译和 MAD-X Adapter 架构的应用。
Jul, 2024
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保持一致性的调整。
Jun, 2024
自动评估开放领域对话系统中回应的质量是一项具有挑战性但又至关重要的任务。我们提出了一种新颖的度量标准,称为 CausalScore,通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。我们的实验结果表明,CausalScore 在与人类判断的一致性方面显著优于现有的领先指标,此外,我们还收集了一个带有人工注释的因果关系对话数据集 CGDIALOG + 以及一组成对人类判断,以促进未来自动度量标准的发展。
Jun, 2024
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代表性 LVLMs 模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。
Jun, 2024
StackRAG 是一种基于 LLMs 的检索增强多智能体生成工具,通过聚合来自 Stack Overflow 的知识,提高了生成答案的可靠性。初步评估表明生成的答案是正确、准确、有关和有用的。
Jun, 2024
本研究探讨了大型语言模型与工具的整合,以及在用户提供不完整信息或无法使用所需工具时如何识别并管理这些不完整场景,从而提高语言模型的可靠性,并验证了大多数语言模型在识别特定工具所需的附加信息和适当工具的缺失方面存在困难。
Jun, 2024
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于 UBENCH,我们评估了 15 个热门的 LLM 的可靠性,发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响,并分析了对不同 LLM 的不同效果。
Jun, 2024
现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力,我们提出了 $ au$-bench,这是一个基准测试,模拟了语言模型模拟的用户与具备特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估过程,将对话结束时的数据库状态与带注释的目标状态进行比较。我们还提出了一种新的度量指标(pass^k),用于评估代理行为在多次试验中的可靠性。我们的实验证明,即使是最先进的函数调用代理(如 gpt-4o)在 < 50% 的任务上也能成功,并且不够一致(在零售领域,pass^8<25%)。我们的研究结果指出了需要提出方法来改善代理的行为一致性和可靠性。
Jun, 2024
通过将常识推理分解为明确步骤,从而更好地生成、选择和整合常识来提高对话交互的自然性、参与度、特定性和整体质量,从而在常识推理增强的响应生成领域取得了最新技术进展。
Jun, 2024