- Falcon2-11B 技术报告
我们介绍了 Falcon2-11B 和 Falcon2-11B-vlm 两个模型,分别是基于五万亿个令牌训练的基础模型和视觉 - 文本模型。我们报道了 Falcon2-11B 的训练过程,其中采用了多阶段方法,早期阶段特点是上下文长度,最后 - 提高语言模型的上下文感知偏好建模
通过细调语言模型以配对偏好实现对各种人类偏好的模型对齐,研究表明,辅助特定上下文评估的能力对于解决这一问题至关重要。
- 自引导:通过自合成微调实现更好的任务特定指示跟随
SELF-GUIDE 机制通过自我合成的数据,指导大型语言模型(LLM)在特定任务上进行微调,显著提高性能,为 LLM 赋予任务特定的专家能力,无需外部学习信号。
- LLM 微调的学习动态
通过分析不同响应之间的逐步分解和积累影响,我们研究了大型语言模型在微调过程中的学习动态,为指令调整和偏好调整的热门算法的训练提供了统一解释,并找到了一个简单有效的方法来进一步提高对齐性能。
- 通过正交学习和交叉正则化增强视觉 - 语言模型的鲁棒性
通过引入正交微调方法和交叉正则化策略,本文提出的 OrthCR 提升了视觉 - 语言模型(VLMs)的稳健性和泛化能力,同时保持了零样本泛化的稳定性。
- BoRA: 大规模多任务语言模型的贝叶斯分级低秩调整
本文介绍了贝叶斯分层低秩适应(BoRA)方法,这是一种用于微调多任务大型语言模型(LLM)的新方法。 BoRA 通过利用贝叶斯分层模型来解决在应用于多个相似任务时选择单独模型或统一模型的权衡,实现了减少参数和内存使用的卓越效果。通过全局层次 - 草图时刻匹配:用于快速和可证明的细调数据选择
我们从基本角度重新审视现代环境下的数据选择问题,通过扩展低维度的方差最小化经典智慧到高维度的微调,我们的广义分析揭示了通过降低低秩逼近引起的偏差的重要性。受到理论上高维空间方差和偏差抵消的启发,我们引入了 Sketchy Moment Ma - ReDiFine: 重用扩散微调以减轻扩散链中的降解
本文通过调查研究表明,迭代微调预训练的文本到图像扩散模型所使用的一组合成图像会导致图像质量严重下降,为解决这个问题,我们提出了可重复使用的扩散微调方法,该方法通过条件丢弃微调和 CFG 调度的结合来保持生成图像的质量,在多个数据集和模型上有 - 自监督预训练的偏微分方程
基于变压器的神经网络架构构建了一种新颖的神经 PDE 求解器,通过自监督学习的方式,训练了一个可以为不同的 PDE 参数提供解决方案的模型。与 Fourier 神经运算器(FNO)相比较,我们证明了这种方法可以推广到 PDE 参数空间,尽管 - ObfuscaTune: 私有数据上的混淆离线微调和推断
对一个模型提供者所拥有的专有 LLM 在第三方云提供商的计算基础设施上对另一个数据所有者所拥有的机密 / 私有数据进行推理和微调的问题进行了研究,提出了一种结合简单而有效的混淆技术和保密计算的新颖、高效且完全保护数据可用性的方法 Obfus - WTU-EVAL:面向大型语言模型的工具使用评估基准
大型语言模型(LLMs)虽然在自然语言处理任务中表现出色,但仍需要外部工具来扩展其能力。本研究探索 LLMs 是否能够确定其能力边界并灵活使用工具,提出 WTU-Eval 基准评估来评估 LLMs 的性能,并通过细调数据集改善工具决策,结果 - BlockLLM: 通过选择和优化正确的块坐标来实现 LLM 的高效适应
使用 BlockLLM 方法选择和更新可训练参数的一个很小子集,从而在不改变模型架构和训练过程的情况下,减少底层优化过程的内存占用并在 GLUE 基准测试中实现了最先进的困惑度得分。
- DetectBench: 大型语言模型能否检测并拼凑隐含证据?
本文提出了一个称为 DetectBench 的基准测试,旨在验证检测和组合长篇背景中的隐含证据的能力,并通过提出的 Detective Reasoning Prompt 和 Finetune 方法增强 LLMs 在证据检测中的性能。实验证明 - 基于语义的层冻结方法:高效微调语言模型
通过对语言模型推理过程进行语义分析,我们提出了在层级上进行参数微调的方法,通过估计每个模型层的微调效果以及缩小微调的范围,我们的方法在 LM 微调中表现出有效且高效的特点。
- MiLoRA: 利用次要奇异分量进行参数高效的 LLM 微调
在本文中,我们提出了一种名为 MiLoRA 的简单而有效的 LLM 微调方法,仅更新权重矩阵的次要奇异部分,而保持主要奇异部分不变,以便在微调期间最大限度地利用较少优化的子空间来学习微调数据集。通过对常识推理、数学推理和指令跟踪基准的广泛实 - 初始化对 LoRA 微调动态的影响
该篇论文研究了初始化在低秩适应(LoRA)中的作用,结果显示将 B 初始化为零且将 A 初始化为随机可以比其他方案获得更好的性能。
- ACLUICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码
通过使用自动生成的合成数据集和自动化工具,我们改进了现有的大型语言模型(LLMs),使其能够生成高质量的用户界面(UI)代码,并通过与其他基准模型的比较证明了我们的方法的有效性。
- PaRa: 個性化文本到圖像擴散通過參數等級降低
PaRa 是一种用于 T2I 模型个性化的参数等级减少方法,通过显式控制扩散模型参数的等级来限制其初始的多样化生成空间为一个小而平衡的目标空间,通过全面实验证明,PaRa 在单 / 多主题生成以及单图像编辑方面相比现有的微调方法具有更好的参 - 因子化诅咒:预测逆转诅咒及更多的标记
最好的语言模型仍然在幻影现象方面存在困难:生成的事实不正确,这妨碍了它们在训练期间可靠地检索到的信息;我们将逆序诅咒重新界定为因子化诅咒 - 模型在不同的因子化下学习相同联合分布的失败;通过一系列的受控实验,包括我们引入的模拟知识密集的微调 - 合成训练图像的未实现承诺:使用检索的真实图像性能更好
通过对比采用生成模型生成的人工数据和来自真实数据的有针对性图像进行微调,在任务上针对性生成的合成数据被真实数据普遍匹配或超越,这表明合成图像中存在生成器伪像和不准确的任务相关视觉细节。总体而言,我们认为在使用合成数据进行训练时,检索是一个必