引文作为查询:使用语言模型作为重新排序器进行来源归属
大型语言模型通过源引用学习具有丰富知识,研究基于内在源引用的问题能够增强模型的透明度、可解释性和可验证性,作者通过源感知训练实现了这一目标,实验证明该方法可以保持模型质量,同时强调数据增强在实现源引用方面的重要性。
Apr, 2024
为了提高跨语言问答系统的可靠性,本研究对该系统的描述性和归属性进行了研究,并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调,可以准确地检测到归属和提高跨语言问答系统的归属度。
May, 2023
本研究使用商业网络搜索引擎和 Wikipedia 检索高质量信息,探究如何增强基于 T5 的重新排名器,并以实证方式展示如何显着改进 T5 基准下的重新排名器在域内和跨领域重新排名任务中的有效性。
Oct, 2022
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
May, 2024
大型语言模型在机器翻译评估任务中取得了显著的成果,然而关于它们如何利用提供的数据进行评估仍存在知识空白。本研究旨在探索大型语言模型如何利用源语言和参考信息进行评估,从而更好地理解大型语言模型的工作机制。通过设计不同的输入模式和模型类型进行受控实验,并使用粗粒度和细粒度提示来识别源语言与参考信息的有效性,我们惊讶地发现参考信息显著提高了评估准确性,而源语言信息有时会适得其反,表明在使用大型语言模型评估翻译时缺乏跨语言能力。我们还对大型语言模型的翻译错误检测进行了元评估,观察到类似的现象。这些发现也为充分利用大型语言模型的跨语言能力以在机器翻译评估任务中取得更好性能提供了潜在的研究方向。
Jan, 2024
本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法,并通过包括查询似然得分等额外特征,有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明,本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。
Jun, 2019
本文探讨了大型语言模型在自动评估引用时的两种方法:引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果,旨在为这一重要问题的未来研究打下基础。
May, 2023
通过开发详细的度量标准并使自动评估器将句子分解为子主张以进行细粒度验证,我们为获取在正确引用来源方面面临挑战的大型语言模型提出了解决方案,强调了进一步改进的必要性。
Mar, 2024
通过使用注意力机制的双向长短期记忆 (BiLSTM) 网络和环境信息,我们可以检测需要引用的句子,我们还构建了一个比以前数据集大数个数量级的新数据集 (PMOA-CITE),证明我们的架构在标准 ACL-ARC 数据集上达到了最先进的性能 ($F_1=0.507$),在新的 PMOA-CITE 数据集上表现出很高的性能 ($F_1=0.856$),并且可以在这些数据集之间进行迁移学习。我们还使用可解释的模型揭示了促进和抑制引用的特定语言的运用,发现了我们改进预测的关键是章节和周围句子。我们进一步检查了模型的错误预测,并发现了人类引用行为和来源数据中的系统性错误,这为我们的模型在提交前和存档过程中检查文档打开了门。我们将这个新数据集、代码和基于网络的工具提供给社区。
May, 2024