研究和修订语言模型的输出:使用语言模型
介绍了一种名为 “重述和回答”(RaR)的方法,通过使人类的问题被大型语言模型(LLMs)重述和展开,从而在单个提示中提供回答,以提高 LLM 的性能。还介绍了 RaR 的两步变体方法,通过将问题由一个 LLM 重述后传递给另一个 LLM,有效地利用了由一个 LLM 生成的重述问题。实验证明这些方法显著提高了不同模型在各种任务上的性能,并与 Chain-of-Thought(CoT)方法进行了综合比较,发现 RaR 与 CoT 互补,结合使用效果更好。该工作不仅对提高 LLM 性能具有高效和有效的贡献,还对公正评估 LLM 能力具有重要意义。
Nov, 2023
本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法,借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识,从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。
Dec, 2022
近年来,大型语言模型展现出了令人瞩目的生成能力,但它们能判断自己生成的质量吗?我们提出了一种名为 ART 的推理与改进目标,通过提出必要的问题来决定何时应该改进模型的输出,并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学 word 问题和问答任务上,ART 相较于自我改进的基线表现提高了 5 个百分点,并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处,作为经济高效的替代方法。
Nov, 2023
该论文研究了不同的检索增强语言模型,如 REALM、kNN-LM、FiD、ATLAS 和 Flan-T5,分析了这些模型在不同任务的文档推理中的优缺点,了解了这些模型在推理失误的情况下,检索器模块以及语言模型是如何根源于推理失误的。
Dec, 2022
通过提出一种名为增强检索增强机器学习(RRAML)的新型框架,将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合,有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。
Jul, 2023
R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.
Aug, 2023
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
本研究通过关键字检索对多种大型语言模型进行评估,发现这些模型在科学文档推理任务中会使用编造的证据来支持预测,利用科学语料库进行预训练无法减轻证据捏造的风险。
Nov, 2023
通过在推理过程中引入大规模数据存储,检索增强的语言模型(retrieval-augmented LMs)可以更可靠、适应性更强且更具可追溯性,然而目前在超越知识密集型任务(如问答)以外的领域,检索增强的语言模型尚未被广泛采用,这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。
Mar, 2024
我们发现,在重新编写任务中,大型语言模型(LLMs)更有可能修改人类撰写的文本,而不是 AI 生成的文本。这种偏好出现的原因是 LLMs 通常认为 AI 生成的文本质量较高,从而减少了修改。我们提出了一种通过提示 LLMs 重新编写文本并计算输出的编辑距离来检测 AI 生成内容的方法,我们将其命名为 Raidar。Raidar 显著提高了现有 AI 内容检测模型(包括学术和商业模型)在新闻、创意写作、学生作文、代码、Yelp 评论和 arXiv 论文等各个领域的 F1 检测得分,最高可增加 29 个百分点。我们的方法仅基于单词符号而不使用高维特征,与黑盒 LLMs 兼容,并且在新内容上具有内在的鲁棒性。我们的研究结果通过机器自身的视角展示了机器生成文本的独特特征。
Jan, 2024