冗长语言模型输出的影响:翻译评估的案例研究
大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。
Jan, 2024
介绍了一个跨越146种语言对的对比挑战集ACES,以发现度量标准是否能够识别68种翻译准确性错误,并通过对WMT 2022和2023度量标准共享任务中的50个度量标准进行基准测试,评估其渐进性能和对各种语言现象的敏感性。结果显示,不同的度量标准家族在不同的现象上存在困难,并且基于大型语言模型的方法的可靠性表现不佳。扩展了ACES以包括错误跨度注释,称为SPAN-ACES,并使用该数据集评估基于跨度的错误度量,结果表明这些度量标准还需要较大改进。最后,提供了构建更好的机器翻译度量标准的一些建议,包括专注于错误标签而非分数,融合多个度量标准,设计明确专注于源句的策略,专注于语义内容,并选择适合的基本模型来进行表示。
Jan, 2024
通过研究大型语言模型的评估生成文本的提示设计,本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响,进而提出了优化评分一致性的方法。
Jun, 2024
大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保LLM评估具有可重现性、可靠性和稳健性。
Jul, 2024
本文探讨了大型语言模型(LLM)在机器翻译(MT)质量评估中所需的翻译信息,包括源文本、参考翻译、翻译错误和注释指南。研究发现,参考翻译在基于LLM的评估中至关重要,且CoT提示技术对大型模型的表现有更显著的提升作用。我们的工作为资源有限且无需训练的LLM-based评估提供了全面分析,并公开了相关提示模板、代码和数据以便复现。
Oct, 2024
本研究探讨了大型语言模型(LLMs)在机器翻译(MT)评估中所需的翻译信息,包括来源、参考、翻译错误和注释指南。研究结果表明,参考翻译对LLM的评估至关重要,同时发现Chain of Thought(CoT)提示对较大模型的影响更为显著,为资源受限的LLM评估提供了全面分析。
Oct, 2024
本研究解决了在多种欧洲语言中对大型语言模型(LLM)进行一致且有意义评估的挑战,尤其是多语种基准稀缺的问题。我们提出了一种针对欧洲语言的跨语言评估方法,利用翻译的五个广泛使用的基准测试评估40个LLM在21种欧洲语言中的能力,创建了新的多语种评估框架和数据集,从而推动了多语种LLM评估的进一步研究。
Oct, 2024
本研究解决了大型语言模型在文档级翻译中缺乏上下文利用的问题。通过分析模型对扰动和随机化文档上下文的鲁棒性,提出了针对上下文相关部分的精细调优策略,以提升模型的翻译可靠性。研究发现,尽管文档翻译性能有所提高,但代词翻译表现未必相应改善,突显了该领域的改进需求。
Oct, 2024
本研究聚焦于大型语言模型(LLMs)中存在的冗长补偿行为(VC),这一行为在用户不确定时表现为生成多余的响应,影响用户理解效率及增加生成无用令牌的成本。通过对14个新开发的LLMs在五个数据集的实验,本文首次界定和分析VC,提出了一种简单有效的级联算法来缓解这一现象,从而显著降低了冗长响应的频率和模型的不确定性。
Nov, 2024