- 上下文奖励:基于动态偏好调整的多目标基础模型对齐
通过 Rewards-in-Context(RiC)的方法,本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法,并通过监督微调在推断过程中支持用户偏好的动态调整,从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相 - 文本到图像生成的自博弈微调扩散模型
通过自我对抗调优技术 (SPIN-Diffusion) 实现了扩散模型的细化调整,超越了常规的监督式细调和强化学习方法,在生成人工智能领域取得了显著的性能和一致性改进。
- EntGPT:将生成式大型语言模型与知识库进行链接
通过实体消歧任务,我们使用三步硬提示方法探索大型语言模型 (LLM) 的性能,改进模型的原始性能并与现有方法进行比较,以提高模型的知识建模和准确性。
- 利用强化学习从 AI 反馈中优化大型多模态视频模型
大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略,称为从 AI 反馈中的强化学习,通过提供详细的视频描述来丰富视频内容的理解,以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基 - LLM 学生的政治偏好
大规模语言模型(LLMs)中嵌入的政治偏好的综合分析表明,当使用具有政治内涵的问题 / 陈述进行调查时,大多数对话型 LLMs 往往生成被大多数政治测试工具诊断为左倾观点的响应,这提供了关于政治偏好可能主要发生在 LLMs 的预训练后期、监 - LongAlign: 大型语言模型的长文本对齐配方
扩展大型语言模型以有效处理长篇背景需要依据相似长度的输入序列进行指导微调,本文提出了 LongAlign 框架,包括长篇背景对齐的指导数据、训练和评估方法,通过 Self-Instruct 构建了包含各种长篇背景任务的数据集,采用打包和排序 - ACL为金融中的表格数据分析赋予语言模型工具使用能力
通过使用外部工具对语言模型进行增强,可缓解传播误差和幻觉等挑战,特别是在数据异构、精确性至关重要的金融领域。我们将监督微调应用于 LLaMA-2 13B Chat 模型,使其成为 ' 任务路由器 ' 和 ' 任务解决器 '。通过使用金融领域 - 监督微调进一步提升视觉基础模型
图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT(Vision SFT)的两阶段方法,通过对一些领域内任务进行视觉联合学习,进而增强视觉基础模型的精细知识。该方法在 8 个 V100 - ReFT: 强化微调推理
通过增强学习和在线增强学习的组合,提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力,以数学问题求解为例,通过学习多个标注的推理路径,显著提高了性能。
- 对比型偏好优化:推动机器翻译中 LLM 性能的边界
大型语言模型在机器翻译方面表现出良好的性能,但是使用监督微调的方式仍存在一些问题,本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型,可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当 - 金融情绪分析的预训练大型语言模型
金融情感分析是将金融文本内容分类为情感类别(如积极、消极和中性)。本文聚焦于金融新闻标题的分类,通过利用预训练的大型语言模型以及监督微调技术,实现在少量训练样本情况下显著超越之前最先进的算法。
- 保留沉默特征以实现领域泛化
该研究分析自监督对比学习中对无声特征的压制,证明保留这些特征能够在特定条件下降低预期的测试域风险,并提出了名为 STEP 的简单且有效方法以改善模型的泛化性能。实验结果显示 STEP 在具有显著分布差异的标准领域泛化基准上具有最先进的性能。
- DeepSeek LLM: 以长期主义为基础扩展开源语言模型
通过研究扩展定律,我们发现了 DeepSeek LLM 在两种常用的开源配置下,7B 和 67B,用于扩展大规模模型的独特发现,并介绍了 DeepSeek LLM 项目的长期前景。通过创建包含 2 万亿标记的数据集并不断扩展,来支持预训练阶 - 自我对弈微调将弱语言模型转化为强语言模型
通过自我对弈优化学习,无需专家对手,实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究
- AAAI利用混合自然语言反馈对语言模型进行微调的 LaFFi
该论文介绍了一种名为自然语言反馈微调 LLM(LaFFi)的替代方法,通过要求 LLM 直接预测从评注者那里得到的反馈,显著提高了领域内问答任务的准确性,为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。
- GeoGalactica:地质科学领域的科学大型语言模型
通过使用大型语言模型 (LLMs) 进行地球科学的进一步预训练和监督微调,我们得到了一个包含 300 亿参数的地球科学领域最大的语言模型 GeoGalactica,并且在技术报告中详细介绍了它的各个方面,包括数据收集、数据清洗、基础模型选择 - 基于监督和自组织的上下文学习任务表现和模型校准
探索了标准的有监督微调(SFT)和上下文学习(ICL)两种方法在低资源环境中存在的过度自信和误校准问题,提出了使用自我集成技术来增强预测校准性和性能,为选择学习范式以及如何提升大语言模型的任务性能和校准性提供了具体指导。
- 平衡之艺:革新专家混合以保持语言模型对世界知识的对齐
LoRAMoE 是一种基于插件形式的专家混合模型,通过冻结骨干模型在训练阶段保证了模型中存储的世界知识的完整性;利用局部平衡约束来均衡任务利用,同时有效发挥其他专家对模型中存储的世界知识的作用。实验证明,LoRAMoE 能在推理过程中合理协 - ULMA:统一语言模型对齐与演示与逐点人类偏好
发展了一种称为点对点 DPO 的偏好学习方法,该方法填补了现有点对点优先学习方法在信息损失和失败方面的不足,并提供了同时处理人类演示和点对点优先数据的统一框架。
- 大规模语言模型的数据管理:一项调查
数据管理在大型语言模型的训练中起着基础性的作用,本文调查了数据管理在预训练和有监督微调阶段的各个方面,包括数据数量、数据质量、领域 / 任务组成等,为构建强大的大型语言模型提供了指导资源。