- GAMA: 具有先进音频理解和复杂推理能力的大型音频语言模型
提出了 GAMA(一种新型通用大型音频语言模型)来解决非语音声音和非语言言语的感知和理解问题。通过集成 LLM 与多种音频表示形式以及利用合成生成的指令调节数据集对其进行训练,实现了音频理解和复杂推理的能力。通过自动化和专家评估,表明 GA - 语言建模的思维标记
当语言模型遇到复杂的计算问题时,由于其不能执行复杂的推理,它们通常会出现错误。为了增强语言模型的泛化能力,并与人类行为相对应,我们提出使用特殊的 “思考标记”,使模型在遇到复杂问题时能够执行更多计算。
- 自监督视觉偏好对齐
本研究首次尝试了视觉语言模型(VLMs)中的无监督偏好对齐,通过对原始和增强图像对生成选择和拒绝响应,并进行直接偏好优化来实现。通过合理设计图像输入的增强方式,诱导 VLM 生成虚假但困难的负面响应,有助于模型从中学习并生成更强大和健壮的答 - 打下基础先?研究原子技能对复杂推理任务的普遍化
目前的语言模型在基本推理方面已经展示了它们的能力,但在需要结合原子技能的更复杂的推理任务上却存在困难,比如需要算术和单位转换等技能的数学问题。本文首先提出了一个探测框架,以研究原子技能是否能自主泛化到复杂推理任务。然后,引入了分层课程学习训 - 大型语言模型是对比推理者
对比提示(CP)显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能,无需手动设计少数训练示例,与当前最先进的 GPT-4 模型相比,在 GSM8K 的准确率从 35.9% 提升至 88 - 深思熟虑:问题拓展引导提升大型语言模型的数学推理能力
使用 Problem Elaboration Prompting(PEP)改善大型语言模型(LLMs)的数学能力,在复杂推理和问题背景理解方面取得了有希望的表现。
- ACLArcher:一个包含算术、常识和假设推理的人工标注文本到 SQL 的数据集
Archer 是一个具有挑战性的双语文本转 SQL 数据集,专注于复杂推理,包括算术、常识和假设推理。它包含 1042 个英文问题和 1042 个中文问题,以及 521 个不同的 SQL 查询,涵盖了 20 个英文数据库在 20 个领域中。 - 多模态潜空间学习用于语言模型的思维链推理
我们提出了一种新的多模态链式思考推理方法,通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示,提高多模态链式思考推理的复杂推理能力,从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。
- AGI 系统的元提示
该论文深入探讨了 “元提示” 这一新颖技术,革新了大型语言模型、多模态基础模型和人工智能系统在问题解决和数据解释方面的方法。该技术根植于类型理论和范畴论,并注重信息的结构和语法,提供了一种超越传统以内容为重点的方法的独特框架。我们详细阐述了 - EMNLPConic10K:一种具有挑战性的数学问题理解与推理数据集
我们提出了 Conic10K,一个具有挑战性的数学问题数据集,主要针对中国高中教育中的二次曲线部分。我们的数据集包含具有不同推理深度的各种问题,仅需要二次曲线部分的知识。通过实验证明,包括 GPT-4 在内的现有大型语言模型在复杂推理方面表 - RecallM: 时序上下文理解与问答的一种架构
通过实验展示了 RecallM 架构对 AGI 系统提供的改进的时间理解能力,从而提出了一种面向 AGI 系统的可适应和可更新的长期记忆机制。
- 零样本 NL2SQL 生成中的预训练语言模型和大型语言模型的交替使用
本文提出了 ZeroNL2SQL 框架,该框架结合了 PLMs 和 LLMs 的优势,支持零样本学习自然语言到 SQL 转换。该框架首先通过架构对齐使用 PLMs 生成 SQL 草图,然后使用 LLMs 通过复杂推理填充缺失信息。经过全面实 - ChatDB:用数据库增强 LLMs,作为它们的符号内存
本文在现代计算机架构的启发下,将符号记忆引入大型语言模型 (LLMs),并使用 SQL 数据库验证提出的记忆框架的有效性。
- 流式批处理下的思维链提示:以案例研究为例
本研究探讨如何在流式学习环境下对批处理数据进行链状思维提示构建和优化,以实现大型语言模型的复杂推理能力自动化。
- ACLOpen-WikiTable: 一个用于开放域复杂推理表格问答的数据集
本研究释出了 Open-WikiTable 数据集,开创了第一个需要对表格进行复杂推理的开放域问题回答(ODQA)数据集,旨在通过对 WikiSQL 和 WikiTableQuestions 的集成,更好地利用表格的结构性质。
- ThoughtSource:大型语言模型推理数据的中心枢纽
ThoughtSource 是一个 meta-dataset 和软件库,用于处理语言模型在复杂推理方面的局限性,旨在提高未来人工智能系统的质量,通过促进 CoT 的定性理解,实现经验评估并提供培训数据。
- 大型语言模型是具有自我验证功能的推理器
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算 - ACL大型语言模型是少量样本的表格推理器
本文旨在研究大型语言模型在表格相关任务中的能力,发现当结合 “思维链” 提示时,大型语言模型可以在只有 1 个样本的情况下达到与某些 SotA 模型相当的表现。
- 解决组合复杂度高的长视界深度强化学习任务的挑战
通过提出一系列机器人任务,不需要额外的专业探索便可解决的优化问题,研究发现标准强化学习方法往往由于折扣而忽视长期影响,而通用层次强化学习方法则需要额外的抽象领域知识。
- STaR: 带着推理进行推理的自举
本文提出了一种名为 Self-Taught Reasoner (STaR) 的技术,该技术利用少量的依据样本和大型没有依据的数据集迭代提高语言模型的理解和应用复杂推理的能力,通过生成推理和反馈微调模型来逐步提升模型的性能,相比于直接预测答案