让大型语言模型能够生成带有引文的文本

May, 2023

让大型语言模型能够生成带有引文的文本

Enabling Large Language Models to Generate Text with Citations

Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen

TL;DR这项研究介绍了 ALCE，一个自动化 LLMs 引用评估的评测基准，通过自动度量三个维度 - 流畅度、正确性和引用质量，强调了更好的检索器、长文本 LLMs 等方向的改善空间。

Abstract

large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, we aim to enable LLMs to generate text with citations

large language models citations alce benchmark automatic metrics

发现论文，激发创造

ALiiCE：评估位置细粒度引文生成

大型语言模型可以通过生成带有引用的文本来增强可信度和可验证性。为了进一步探索细粒度引用的生成，我们提出了 ALiiCE，这是首个针对该任务的自动评估框架。我们的实验和分析证明了 ALiiCE 的有效性和合理性，同时也表明现有的大型语言模型仍然难以提供细粒度的引用。

Jun, 2024

当大型语言模型遇见引用：一项调查

本文综述了大语言模型（LLMs）与引文分析之间的相互关系，包括引文分类、基于引文的摘要和引文推荐等任务，以及通过引文预测、网络结构信息和文献间关系等手段来改进 LLMs 的文本表示，并提出了进一步研究 LLMs 和引文分析相结合的潜在方向。

Sep, 2023

增强语境的语言模型用于生成多篇论文引用

基于大型语言模型的引文生成方法，旨在解决单段落引文生成的挑战，研究通过整合多个目标论文与单个源论文，生成包含多个句子引文文本的连贯段落。同时，通过将目标论文的知识图谱整合到生成引文文本的提示中实现了更好的性能，这一研究揭示了利用大型语言模型进行引文生成的潜力，为探索科学文档之间的复杂连接打开了一个引人注目的途径。

Apr, 2024

通过细粒度奖励训练语言模型生成带有引文的文本

本文提出了一种使用细粒度奖励的有效训练框架，教授大型语言模型生成高度支持和相关的引用文献，以及确保其回答的正确性。在常见的大型语言模型训练策略上应用这些细粒度奖励进行系统分析，并在 ALCE 基准测试和 EXPERTQA 上进行了广泛实验验证其模型的通用性。在 LLaMA-2-7B 上，细粒度奖励的引入在基准测试中取得了最佳性能，甚至超过了 GPT-3.5-turbo。

Feb, 2024

基于 LLM 的引文增强生成技术的聊天机器人

我们提出了一种新颖的后置 extbf {引用增强生成（ extbf {CEG}）} 方法，结合检索论证。与先前的研究不同，我们的方法并不着重于在生成过程中防止幻觉，而是采用后置方式解决这个问题。我们的模型包括一个检索模块，用于搜索与生成内容相关的支持文档，并采用基于自然语言推理的引文生成模块。如果生成内容中的陈述缺乏参考文献，我们的模型可以重复生成回复，直到所有陈述都有引文支持。在各种与幻觉相关的数据集上的实验证明，我们的框架在幻觉检测和回复重构两个基准上优于现有方法。我们的代码和数据集将公开提供。

Feb, 2024

LLM 对相关医学参考文献的引用质量评估框架和分析

使用大型语言模型（LLMs）回答医学问题，验证其生成的来源的相关性，并开源医学问题和专家注释的数据集以便进行未来评估。

Feb, 2024

大型语言模型反映人类引用模式，具有较高的引用偏好

大型语言模型（LLMs）如 GPT-4 在引用实践中引入新的动态，并且可能放大现有的偏见和引入新的偏见，从而可能扭曲科学知识的传播。

May, 2024

大型语言模型自动评估归因

本文探讨了大型语言模型在自动评估引用时的两种方法：引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果，旨在为这一重要问题的未来研究打下基础。

May, 2023

构建可靠流畅的大型语言模型：在问答系统中引入反馈学习循环

为了解决大型语言模型在引文、正确性和流畅度方面存在的问题，本研究通过构建数据集、引入自动化反馈机制和反馈学习循环，成功提高了 ChatGPT 的引文和流畅度指标，并保持高水平的正确性。

Sep, 2023

通过事实一致性模型学习生成带有引文的答案

提出了一种利用事实一致性模型进行弱监督微调的方法，通过在生成的文本中添加引用并使用经过过滤的引文数据进行监督微调，以提高生成的内容的可验证性，并在 ALCE few-shot 引文基准上展示了超过上下文学习、纯监督微调和最先进方法的平均提高，同时在领域转移设置中表明所得到的引文生成能力在未见过的数据集上具有稳健性，并且在基线对比中具有最低的事实错误率。

Jun, 2024