多语言问答模型的校准理解
本文提出Translate Align Retrieve (TAR)方法,通过将Stanford Question Answering Dataset(SQuAD)v1.1自动翻译成西班牙语,创建了大规模的西班牙语QA training dataset。使用此数据集通过微调Multilingual-BERT模型训练了西班牙语QA系统,并在MLQA和XQuAD基准测试上进行了评估,结果表明该方法优于Multilingual-BERT基线,达到了新的最高69.1 F1分数。
Dec, 2019
本文探索了提高多语言问题回答的交叉语言转移性能的策略,包括使用机器翻译生成的数据来增强原始英语训练数据,以及提出两种新颖的策略:语言对抗性训练和语言仲裁框架,这些策略显著提高了零资源的交叉语言转移性能,并导致 LM 嵌入不那么语言特定的结果。经验证明,这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零-shot基线。
Dec, 2020
研究了问题回答中的校准问题,通过利用输入示例信息和数据增强,提高了在阅读理解基准测试中校准准确性5-10%,并在开放检索设置中呈现了第一次的校准研究,比较了基于检索的跨度预测模型和答案生成模型的校准精度
Jun, 2021
QAmeleon使用预训练语言模型PLM自动生成多语言数据来训练QA模型,从而避免昂贵的注释成本,在低资源环境中优于直接使用手动标注的示例进行QA模型微调的方式,并在TyDiQA-GoldP和MLQA基准测试中实现了高准确性的问答。
Nov, 2022
本文提出了一种利用现有平行语料库进行间接监督的跨语言问答(QA)的合成数据生成方法,并使用词汇约束的机器翻译提高翻译质量,生成了跨越4种语言的662K QA样例数据集,并通过消融研究证明了该方法相对于自动单词对齐的噪声比较稳健。
Apr, 2023
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
在这篇论文中,我们研究了如何利用问题对齐方法提高大型语言模型在非英语性能上的应用,通过对可执行代码推理和常识推理的影响进行探索,并通过代理调整的方式实现对极大型语言模型的高效应用。多语言推理基准测试结果显示,问题对齐方法能够在不同推理场景、模型系列和大小上提升多语言性能。与LLaMA2模型相比,我们的方法平均提高了mGSM的准确率12.2%,即使在70B模型上也是如此。通过分析表示空间、思维链和翻译数据规模,我们还揭示了问题翻译训练如何增强LLMs内部的语言对齐,并塑造它们的工作模式。
May, 2024
通过多语言对齐方法,本文研究了大型语言模型的多语言能力提升,发现即使在没有注释答案的情况下,仅通过问题翻译数据进行训练的语言模型能够在广泛的未见过的语言中获得显著的性能提升,并利用不同的设置和机理解释方法对多语言场景下的语言模型性能进行了全面分析。
May, 2024
本研究解决了多语言模型剪枝中的校准问题,特别是在非英语文本中。我们通过比较不同校准语言的剪枝策略,发展了新的见解,发现目标语言校准能降低困惑度但对下游任务影响有限,强调了保持语言特定特征的重要性。该研究为未来的实践者提供了实用建议。
Aug, 2024
本研究解决了多语言大模型校准时忽视非英语文本的问题。通过对多种语言进行比较研究,提出了有效的多语言模型剪枝校准策略。研究结果表明,目标语言校准能提高流利性和连贯性等语言特性,但对通用语言特性的捕捉效果有限,提供了未来实践者的实用建议。
Aug, 2024