- TAGCOS:面向任务的梯度聚类核心集选择用于指导调优数据
我们提出了一种任务无关的梯度聚类核心集选择方法(TAGCOS),通过使用采样梯度作为数据表示,执行聚类来分组相似数据,并应用高效的贪婪算法进行核心集选择,实验结果表明我们的算法仅选择了 5% 的数据,优于其他无监督方法,并实现了接近完整数据 - ICML从词语到世界:认知架构的组合性
大型语言模型(LLMs)在语言组合性方面表现出色,但它们的性能如何?我们通过对四个 LLM 系列(12 个模型)和三个任务类别进行实证分析,包括引入的新任务。我们的发现揭示了 LLMs 学习组合策略的细微关系 - 尽管扩展提高了组合能力,但 - InverseCoder: 发挥逆向指令调谐代码语言模型的能力与逆向指令实现
通过在自身生成的数据上 fine-tune,而非查询封闭源语言模型,进一步改进了指令调优的代码大型语言模型。借鉴正式语言和非正式语言翻译的错位现象,引入了 INVERSE-INSTRUCT,从代码片段中总结指令。通过代码概括和自我评估,改进 - 使用分岔的思维链在语言模型中进行微调,提升推理能力和自我纠正
通过要求模型在单一推理步骤中比较多个推理链,我们提出了一种新方法 Divergent CoT (DCoT),进一步提高模型性能。通过一系列实验证明,DCoT 数据集上的微调在各种推理类型的任务上提高了模型的性能,无论模型的规模是多少。同时, - 通过直接偏好对齐提升量化大型语言模型的对话能力
大型语言模型(LLMs)的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人,通过高级技术如调整指令和通过人类反馈进行强化学习(RLHF)紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法,即量化感知的直接偏好优化 - 原始文本就是您所需的:大规模语言模型的知识密集型多轮指导调优
通过利用对话逻辑在生成大型语言模型的季节性多轮对话中的原始文档进行指令调整,本文介绍了一种名为 R2S 的新颖框架,该框架整合了开放源代码数据集和领域特定网络爬行文档的原始文档来创建基准 K-BENCH,涵盖了维基百科(英文)、科学(中文) - 多模态大型语言模型改进视觉叙述
借助大型语言模型和大型视觉语言模型的指导调整,本文提出了一种新颖方法来解决视觉故事生成中的困难,通过组合图像和叙述来创造具有吸引力和丰富上下文的故事,实验结果表明,本方法在叙述连贯性、相关性、情感深度和总体质量等方面明显优于现有模型,凸显了 - 重访大型视觉语言模型的后门攻击
使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在 - 日本医学问答中的 70B 参数大型语言模型
通过使用多个 70B 参数的大型语言模型以及日本医学问答数据集进行指导调整,我们首次展示了指导调整显著提高了日本医学领域的语言模型在解决日本医学许可考试方面的准确性,超过了 50%。特别是,与英文为中心的模型相比,以日语为中心的模型在通过指 - 利用指令调校的大型语言模型优化心理咨询
本文探讨了大型语言模型在心理咨询中的应用,通过专用提示信息来提高其在提供共情、相关和支持性回应方面的性能,研究结果表明我们的训练模型优于几个基线模型,凸显其作为可扩展且易于获取的心理健康支持工具的潜力。
- LLARVA: 视觉动作指令调整增强机器人学习
通过使用纯指令调整的 Large Multimodal Models(LMMs),我们引入了 LLARVA 模型,该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境,并且利用预测中间的 2D 表达,即 “视觉迹线”,进一步对齐了 - 动态数据混合最大化专家混合模型的指令调优
基于混合专家模型(Mixture-of-Experts),提出了一种动态数据混合的处理方法以优化模型性能,通过动态地调整训练数据的采样权重,减少数据集中的冗余,从而在有限的训练预算下最大化整体性能。
- MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集
生成自然且有意义的回复以与多模态人类输入进行交流是大型视觉语言模型(LVLMs)的基本能力。我们引入 MMDU 作为一个综合基准以及 MMDU-45k 作为一个大规模的指导调整数据集,旨在评估和提高 LVLMs 在多轮和多图像对话中的能力。
- 在指令调优过程中的零样本泛化:相似性和粒度的见解
使用多种度量标准首次证明了指导调整过程中的零样本泛化是一个基于相似性的从训练数据到测试数据的在实例级别上的推理表现,我们的分析有助于推动对指导调整过程中零样本泛化的理解,并为更加对齐的 LLMs 的发展做出贡献。
- 基于概念技能可转移性的数据选择方法用于大规模视觉语言模型
通过使用小模型作为参考模型,COINCIDE 是一种有效且可伸缩的数据选择技术,可用于选择用于目标 LVLM 的高效微调的视觉指令数据,重点关注多样性和可转移性。
- ACL跨语言零射击泛化在指令调整中的深度探索
通过跨语言调整指令和数据获取方法,研究表明对未知任务的指令调优在英文和韩文方面都取得了显著的改善效果,与单语指令调优相当甚至有些任务超过,强调了在指令调优过程中通过跨语言数据获取的相关性和语言一致性的重要性。
- ACLTasTe: 通过自我反思教授大型语言模型进行翻译
TasTe 框架通过自我反思的过程提出了一种新的方法,通过指导和评估生成的初步翻译,并最终提高翻译质量和大型语言模型的能力。
- 使用音频启动大型语言模型进行通用语音摘要
利用大型语言模型的处理和推理能力,我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器,以使语言模型能够解释语音输入,并可根据输入模态产生一致的响应。与先前的方法不同,我们的方法能摘要任意领域 - 从符号任务到代码生成:多样化产生更好的任务执行者
通过合适的指令调整,语言模型在指令 - 输出对的训练上能够更好地适应真实世界;研究发现,提供足够多样化的任务集合能够使其在训练分布之外的情况下具备泛化和鲁棒性,并且扩展调整指令集合能够提高代码生成的性能。
- ACL跨任务防御:面向内容安全的指令调优语言模型
我们的研究旨在针对恶意文件开发强大的大型语言模型(LLMs)防御机制,并通过指导调整来提高它们处理危险内容的能力,同时维持其效用和安全之间的平衡。在我们的实证结果中,LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外,加强