- iWISDM: 在大规模的多模态模型中评估指令遵循
通过 iWISDM 环境,我们编制了三个不同复杂度的指令跟踪视觉任务基准,并评估了几种新开发的多模态模型,结果显示多模态模型的指令遵循能力与人类存在较大差距。
- 自我对弈并结合执行反馈:提升大型语言模型的指令执行能力
首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF,能够显著提高大型语言模型的指示遵循能力,有效应用于 SFT、Offline DPO 和 Online DPO 训练算法,可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。
- SciRIFF:提升科学文献中模型指令遵循能力的资源
SciRIFF 是一份包含 137K 个 54 项任务的指示跟随演示的科学资源,涵盖了信息提取、摘要、问题回答、声明验证和分类等五个必要的科学文献理解能力,其长输入上下文、详细任务规范和复杂的结构化输出使其成为瞩目的资源。通过在一般领域和 - Minedreamer: 通过想象链学习模拟世界控制中的指令跟随
设计一种通用 - 具身化代理,通过使用多模态大型语言模型和扩散模型的先进技术,并利用想象链机制,实现低级控制信号生成中的指令跟随能力的增强。MineDreamer 在 Minecraft 模拟器上开发,能够稳定地按照单步和多步指令执行,胜过 - LongAlign: 大型语言模型的长文本对齐配方
扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调,本文提出了 LongAlign 框架,包括长篇背景对齐的指导数据、训练和评估方法,通过 Self-Instruct 构建了包含各种长篇背景任务的数据集,采用打包和排序 - 仅需一点多语言知识的多语言教学优化
通过研究多语言指令调整多语言大型语言模型的效果,我们发现跨语言转移以及将多语言示例用于指令调整对多语言指令跟随具有显著的改进作用。
- MUFFIN: 为改善指令遵循而策划多方面指令
通过扩展输入和无需输入的任务,提高大型语言模型在指令遵从能力方面的表现,并引入了一种新的指令遵循数据集策略 MUFFIN,实验结果表明,使用 MUFFIN 训练的不同规模的大型语言模型在指令遵循能力上优于使用其他两种方案训练的模型。
- 通用化类比:向难以衡量的领域推广人工智能监管的测试平台
AI 系统越来越智能化,为了避免滥用人类反馈而学习追求遵循指示,研究通过控制 LLMs 对不可靠情况中的人类反馈进行泛化来减轻风险;采用 69 种不同领域的分布变化,发现奖励模型默认不会学习评估 “遵循指令”,而更偏好与互联网文本相似的人设 - COSMIC: 高效数据指令调整的语音上下文学习
我们提出一种数据和成本高效的方式,将语音模态融入到大型语言模型中,这种多模态语言模型被称为 COSMIC,具备指令跟随和上下文学习的能力。通过使用 GPT-3.5 生成基于语音转录的语音理解测试问答对作为指令调整的一部分,COSMIC 在少 - GROOT: 通过观看游戏视频学习遵循指令
通过引入视频作为指导说明,我们研究了在开放世界环境中构建能够跟随无限指令的控制器的问题,并提出了一种全新的学习框架,该框架能够从游戏视频中学习这种跟随指令的控制器,并生成一个诱导结构化目标空间的视频指令编码器。通过对提出的 Minecraf - 多轮交替多模态指令跟随
介绍了 TextBind,这是一个几乎无需标注的框架,可以为较大的语言模型赋予多轮交错的多模态指令跟随能力,通过仅使用图像 - 标题对生成多轮多模态指令 - 回应对话,从而旨在推动多模态指令跟随领域的未来研究。
- Sparkles: 跨多图解锁聊天功能的多模 口实行模型
SparklesChat 是一个多模态指令追随模型,通过整合文本和图像的方式,有效地进行多图像的开放式对话。实验证实了 SparklesChat 在跨多个图像和对话转换中理解和推理的有效性,并在视觉与语言基准测试中优于 MiniGPT-4, - InstructionGPT-4:Fine-Tuning MiniGPT-4 的 200 指令范式
通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练,多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4,该模型在仅包括 200 个示例的小数据集上进行了微调,相当于 MiniG - 大型语言模型中的指导位置在序列生成中的作用
通过改变任务指令在输入句子之后的位置,我们提出了一种增强大型语言模型的指令遵循功能的方法,该方法可以显著改善条件序列生成的零样本性能。
- 你真的跟随我吗?评估大型语言模型的稳健性的对抗性指令
通过实验,我们揭示了先进的指令跟踪模型在抵御对抗性指令攻击方面的显著局限性,并且发现了指令调优模型容易过拟合于输入的指令短语而无法真正理解应该遵循哪些指令的问题。这突出了训练模型理解提示而非仅仅遵循指令短语并完成文本的挑战。
- MultiModal-GPT: 一个视觉语言模型,用于人类对话
该研究提出了名为 MultiModal-GPT 的视觉与语言模型,可以利用证据和语言数据对多模式指令进行调整,为模型的不断对话提供支持,同时提出了联合培训的观点,并通过各种演示展示了 MultiModal-GPT 的连续对话能力。
- ACL绘制一朵花:自然语言中的抽象处理与基础
本论文研究了自然语言中抽象表达的处理和基础问题,并通过 2D 指令跟随游戏 Hexagons 收集了超过 4k 多样化抽象类型丰富的指令数据,发现现代神经模型的表现与人类表现相比明显不足,特别是在更高层次的抽象处理上表现更差。
- 通过从文本的迁移学习进行深度强化学习的人类指令遵循
通过使用预先训练的文本语言模型(BERT),我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理,以适应自然人指令,从而在人类给出自然指令的情况下,实现从合成模板命令到指令的零 - shot 传输。
- 使用模仿学习在仿真四旋翼上跟随高水平导航指令
本文提出了一种基于神经网络和语义地图的导航模型,能够实时地将高层次的导航指令映射到连续的低层次速度指令上,通过改进的 DAgger 算法进行训练和测试,并通过学习到的语义地图实现了解释性强的指令跟随模型。