METAL: 大型语言模型质量分析的变形测试框架
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
该论文介绍了一个评估大型语言模型的新颖框架,重点是将图像生成的精确性和召回率指标应用于文本生成。通过对最先进的语言模型进行全面评估,揭示了它们在开放式生成任务上的性能问题,传统基准测试无法充分捕捉到。研究结果表明,在模型通过人类反馈进行微调时,生成样本的质量和多样性之间存在权衡。此工作扩展了基于分布的自然语言处理评估工具包,为当前大型语言模型在生成多样且高质量文本时面临的实际能力和挑战提供了深入洞察。
Feb, 2024
通过模拟用户与大型语言模型的交互,提出了一种增强网络安全的方法,包括全面的元宇宙网络安全问答和攻击模拟场景,以帮助用户认识和抵御风险,并通过扩展训练来理解个性化输入和表情符号等用户内容,验证了该方法的有效性。
Dec, 2023
使用大规模生成性语言模型(LLMs)可以模拟自由回答面试问题,这种方法可以代替传统的定性研究方法;研究中提出了算法忠实度的概念,通过框架化定性分析发现人工和模型生成的参与者得到的主题相似,但在访谈的结构和语气上存在显著差异;LLMs 目前的算法忠实度不足以推广到人类群体,但未来可能会有改变;因此,有必要建立关于如何评估基于 LLMs 的定性研究的认知规范,特别是关于确保包含多样化生活经历的代表性。
Sep, 2023
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
通过提供一个英韩语言对的 1200 句 MQM 评估基准,将机器翻译评估重新定义为使用 SOTA 语言模型同时预测多个 MQM 分数的多任务问题,在参考 MT 评估和无参考质量估计(QE)设置中,我们发现无参考设置在风格维度上优于参考设置,而参考模型在准确性方面保持优势,总体上,RemBERT 是最有希望的模型。通过我们的评估,以一种更精细化、可解释的方式提供了关于翻译质量的见解。
Mar, 2024
我们介绍了首个多语言语言可接受性基准 MELA,并在 48K 个样本中涵盖了 10 种语言,从不同的语言家族中选择。我们分析了经过精调的 XLM-R 的权重,探索了语言之间的转移困难,结果显示 ChatGPT 得益于上下文实例,但仍落后于精调的 XLM-R;而 GPT-4 在零 - shot 设置中与精调的 XLM-R 的性能相当。跨语言和多任务学习实验表明,在语言可接受度判断中,与语义任务不同,语言内的训练数据至关重要。我们还引入了冲突权重的概念,该概念可能是跨语言转移困难的潜在指标。
Nov, 2023
自动机器翻译评估是推动机器翻译系统快速迭代发展的关键工具,本文在已有单一评分指标的基础上提出 AutoMQM,一种通过大语言模型的推理和上下文学习能力来识别和分类翻译错误的提示技术。通过评估最新的大语言模型 PaLM 和 PaLM-2,通过简单的得分预测提示,发现 AutoMQM 在 PaLM-2 模型上优于仅提示得分的性能,并能提供与人工注释相一致的错误范围,具有解释性。
Aug, 2023
我们提出了一种基于大型语言模型的自动鲁棒度量方法,用于判断生成文本是否具有毒性,这种方法在衡量毒性方面表现出色,在 F1 分数上比最先进的度量方法提高了 12 个百分点,同时表明上游毒性对下游度量方法有影响。
Feb, 2024
机器翻译的评估方法主要关注流畅度和事实可靠性,而对比喻质量关注较少。本文研究机器翻译的比喻质量,并提出了一组以比喻语言翻译为重点的人工评估指标。我们还介绍了一个多语言平行比喻语料库,并设计了评估协议来评估机器翻译的隐喻等价性、情感、真实性和质量。通过观察,我们发现比喻表达的翻译与字面意义的翻译具有不同的特点。
Jun, 2024