大型语言模型作为上下文人工智能生成器的优质多样性
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024
本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework),使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现,采用该方法在三个广泛使用的 ODQA 数据集上,实验结果优于之前的最先进方法,在 EM 指标上平均提高了 8.8 个百分点,并且能够实现与多种检索增强的微调模型相比较的性能。
Dec, 2022
通过 AI 反馈引导的 QDAIF 与非 QD 控制组相比,在创意写作领域覆盖更大范围,生成高质量样本;同时,QDAIF 生成的创意文本经人工评估验证与人类评估具有合理的一致性,突显了 AI 反馈在引导开放式创意搜索方面的潜力。
Oct, 2023
通过将优化、约束满足和语言模型结合起来,我们提出了一种新颖的方法来解决工程应用中生成模型面临的两个基本挑战:获取高性能多样的数据集和生成符合精确约束的设计。我们的方法使用品质多样性 (Quality-Diversity, QD) 生成多样化、高性能的数据集,并使用该数据集对语言模型进行微调,生成高级设计。然后,使用波函数坍缩算法将这些设计精细化为符合约束的详细布局。我们的系统可靠地遵循文本指导,能够生成具有目标建筑特性和性能特征的布局。关键是,我们的结果表明,通过 QD 的进化搜索合成的数据不仅提高了整体模型性能,而且对模型密切遵循文本指导的能力至关重要。这种改进强调了进化计算在创建用于训练设计生成模型的关键数据集方面所起的关键作用。
May, 2024
我们介绍了我们在 WSDM Cup 2024 的 “Conversational Multi-Doc QA” 挑战中的获胜方法,利用了大型语言模型(LLM)的优越自然语言理解和生成能力,通过将 LLMs 调整到任务需求,制定了混合训练策略来充分利用领域内无标注数据,并采用先进的文本嵌入模型来过滤可能不相关的文档,并设计和比较多种模型集成的方法,配备了所有这些技术,我们的解决方案最终在 WSDM Cup 2024 中获得了第一名,大大超过了竞争对手。
Feb, 2024
在大语言模型的时代,应用检索增强生成等技术可以更好地解决开放领域问题回答问题。本文提出了一种通用方便的方法来覆盖更长的上下文,以在开放领域的问答任务中应用。我们的实验证明,在精调后,在两个保留数据集、四个留存数据集和两个上下文学习设置中,性能得到了提高。
Apr, 2024
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
通过使用大型语言模型扩充轨迹的自然语言描述,我们提出了一种方法来解决质量 - 多样性问题,允许用户指定任意目标行为描述,并通过高层次的文本提示来塑造生成的轨迹。同时,我们还提出了一种基于大型语言模型的评估方法,并使用 2D 迷宫中的模拟机器人导航开发了一种基准测试用于实验验证。
Aug, 2023
本论文提出 CONDA 方法以生成虚拟数据,并通过将结构放在 QA 对上并使用 QA 数据集来训练上下文生成器来进一步提高生成语言模型的能力,通过将下游任务转化为相同的问答格式并调整上下文生成器适应目标任务域,使用精调的生成语言模型生成相关上下文,这些上下文作为相应任务的虚拟训练数据,在多个分类数据集上进行实验,显示出在几乎零样本和少样本设置中的性能显着改进,分析表明要求高级推理能力的 QA 数据集(例如,抽象和常识 QA 数据集)在几乎零样本和少样本设置中都能显着改进性能。
May, 2022