- 预训练语言模型中的非英文对齐引导
基于对有关预先令牌指导跨语言生成的依赖性的重要洞察,我们提出了一种名为 PreTTY 的新型无需训练的对齐方法,用于在基础 LLM 和 SFT LLM 之间建立桥梁,以实现可比较的性能。在八种语言上进行的机器翻译和词性标注实验表明,PreT - 格鲁吉亚语中的同音词义消歧
该研究提出了一种新的方法来解决乔治亚语中的词义消歧(WSD)任务,该方法基于对预训练的大型语言模型(LLM)在通过过滤乔治亚通用爬取语料库形成的数据集上进行有监督的微调。该研究的目标是强调有关乔治亚语中同音异义词消歧的特定问题,并介绍我们的 - ACL一种基于偏好的增强翻译的范式与大型语言模型
通过基于 Plackett-Luce 模型的基于偏好的方法,成功突破了以模仿为基础的 SFT 的平台效应,从而实现了在各种 LLM 和测试环境中的性能优势。
- 自主探索避免陷阱:以细粒度奖励提升语言模型的推理能力
通过自主探索(Self-Explore)的方法,研究自动增强规划模型(LLMs)的推理能力,并与监督式微调相比,在 GSM8K 和 MATH 测试集上分别平均取得 11.57%和 2.89%的改进。
- 通过监督微调向大规模语言模型注入新知识
研究了在最新的体育事件领域中,通过具有监督的微调方法对大规模语言模型进行知识注入的有效性,并比较了基于令牌和基于事实缩放的不同数据集生成策略,发现基于事实缩放提供了更为系统的方法来确保对所有事实的均匀覆盖。通过 SFT 进行更有效的知识吸收 - 用于鲁棒语言模型微调的自动数据整理
通过自动数据加工管道 CLEAR (Confidence-based LLM Evaluation And Rectification) 对指令调谐数据集进行自动加工,提高模型性能。
- ACL增强大型语言模型的翻译能力的新范式
本文介绍了一项关于增强大型语言模型(LLMs)在机器翻译(MT)任务中翻译能力的研究,提出了一个包括三个阶段的新范 Paradigm,通过使用大量的单语数据进行二次预训练、使用互译文本格式文档进行连续预训练,以及利用和源语言一致的指导来进行 - 小到大 (S2L):通过总结小模型的训练轨迹,为大型语言模型进行可扩展的数据选择
通过使用数据选择方法 SmallToLarge(S2L)指导大型模型的数据选择,提高了有监督微调的数据效率,特别适用于数学问题解决领域。在大量实验中证明,S2L 显著提高了有监督微调的数据效率,仅使用原 MathInstruct 数据集的 - 无参考单块偏好优化与胜负比率
优先对齐算法、受监督的微调 (SFT)、单体化比值偏好优化算法 (ORPO)、最新的语言模型和模型检查点
- 关于本质和前景的研究:大型模型的对齐方法调查
大型模型在人工智能领域取得了革命性突破,但也可能引发一些潜在的担忧。本文综合研究价值对齐方法,探究了历史背景、数学本质以及现有对齐方法(强化学习、监督微调和上下文学习)的联系、优势和局限,并讨论了个性对齐和多模态对齐作为该领域的新兴方向。最 - 使用强化学习训练大型语言模型进行推理
从人类反馈中进行强化学习(RLHF)已成为将 LLM 输出与人类偏好对齐的一种主要方法。受 RLHF 成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO), - 平衡增强、无害性和通用能力:通过直接 RLHF 提高对话式 LLMs
通过采用无害的来自人类反馈的强化学习方法,我们绕过了监督微调,直接应用于 Mistral,从而创建了 Mistral-Plus,它不仅保留了基础模型的通用能力,还显著增强了其对话能力,并大幅减少了有毒输出的生成。
- 对大型语言模型进行少样本多语言 NLU 分析与适应:如今已经达到目标了吗?
三种常用方法,即监督微调、监督指令微调和上下文学习,是少样本学习的三种替代方法。本文对这三种方法进行了广泛而系统的比较,测试了六种高低资源语言、三种不同的 NLU 任务以及各种语言和领域设置。观察结果显示,监督指令微调在性能和资源需求方面具 - 用 LLMs 进行的自述文本风格转换提炼
基于大语言模型和 CoT 提示的 CoTex 框架,在有限的平行数据集约束下,能够优于传统监督微调和知识蒸馏方法的无监督文本风格转换,特别是在资源有限的情况下,同时具有风格转换过程的透明解释。
- PeriodicLoRA: 打破 LoRA 优化中的低秩瓶颈
本研究探讨了一种改进的 LoRA 优化方法,称为 PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA 具有更强的学习能力,最高可达到 LoR - LLMs 数学推理中的数据能力边界的实证研究
通过识别推理路径的最佳集合来确定推理路径增强的能力边界,通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力,以较低的建设成本实现 SOTA 性能,并提供用于鲁棒性测试和教育应用的自动问题生成器。
- 脑启发的两阶段方法:模拟人类思维过程增强数学推理
提出了一种名为 Brain 的新方法,通过模仿人类思维过程来增强数学推理能力,在生成规划时使用额叶模型,然后利用顶叶模型生成代码并执行以获得答案,在数学推理任务中取得了最先进的性能,并发现可以明确从自然语言、代码或正式语言中提取规划。
- 基于子模块互信息的弱监督适用于冷启动主动学习
利用 STENCIL 方法,在类不平衡冷启动环境下,通过选择一组弱标记的稀有类别实例并由注释者进行强标记来改善文本分类数据集的整体准确性和稀有类别的 F-1 分数,相对于常见的主动学习方法,STENCIL 方法提高了 10% 至 24% 的 - BIDER:基于关键支持证据的高效检索增强型 LLMs 中知识不一致性的桥接
介绍了 BIDER,通过知识合成、监督微调和偏好对齐将检索文档转化为关键支持证据(KSE),通过强化学习从 LLM 的信息获取偏好中获得最大化输出,评估结果表明 BIDER 提高了 LLM 的答案质量 7%,同时减少了检索文档中输入内容长度 - 对大型语言模型对齐的 AI 反馈的关键评估
强化学习与 AI 反馈(RLAIF)是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题,即对于 AI 反馈来说,这个 RL 步骤的复杂性是否真的有必要。我们发现,RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论