SpeechAlign:将语音生成与人类偏好对齐
SpeechAlign 是一个框架,用于评估语音模型中源 - 目标对齐领域的尚未充分探索的领域,并提供了两个新的度量标准来评估语音模型的对齐质量,通过发布 SpeechAlign 来为模型评估提供一个可访问的评估框架,并用它来评估开源的语音翻译模型。
Sep, 2023
基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习,而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法,通过一次推断步骤将语言模型与人类偏好对齐,消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进,使得能够按照差异约束条件提取最优策略,并直接估计对齐的回应。广泛的实验表明,线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。
Jan, 2024
在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。
Apr, 2024
通过理论分析学习动态,我们提供了对人类偏好对齐的理论观察,揭示了优化算法可能优先考虑具有更高偏好区分度的行为,并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。
Mar, 2024
通过 Descriptive Speech-Text Alignment 方法,本研究提出了一种新型的语音语言模型,可以解释和生成全面的自然语言描述,从而促进对语音的语言和非语言特征的理解,并在 Dynamic-SUPERB 基准测试中展现出卓越性能,尤其是在未见过的任务上的泛化能力,同时发现对齐模型具有零样本指令跟随能力,无需显式调整语音指令,这些发现突显了通过加入丰富的描述性语音字幕来改变指令跟随语音语言模型的潜力。
Jun, 2024
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
本研究旨在构建一个与人类价值观相一致的通用文本助手,通过简单的基线技术和评估,我们发现适度干预的效益随着模型大小的增加而增长,并且不会影响大模型的性能;二分类和模仿学习亦具善意,但此外,排序偏好建模方法在对齐训练任务中表现更佳且尺度更合适;最终我们研究通过 “偏好模型预训练” 阶段达到在人类喜好上微调时的样本效率提升。
Dec, 2021
研究提出了 SELF-ALIGN 方法,利用少量人工监督和结合原理驱动推理和 LLM 的生成能力,实现 AI 助手的自我对齐,减少人工监督的依赖,获得更好的性能,开发了 Dromedary AI 助手。
May, 2023
本研究提出了一个新的框架,利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练,避免了对已对齐的 LLMs 的依赖,这种方法的结果是,我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好,我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异,平均获胜率约为 75%。
May, 2023
本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间,实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。
Oct, 2021