偏好对齐改善基于语言模型的文本到语音合成

Sep, 2024

偏好对齐改善基于语言模型的文本到语音合成

Preference Alignment Improves Language Model-Based TTS

Jinchuan Tian, Chunlei Zhang, Jiatong Shi, Hao Zhang, Jianwei Yu...

TL;DR本研究解决了基于语言模型的文本到语音合成(TTS)在生成内容吸引力方面的优化问题。通过偏好对齐算法，尤其是直接偏好优化(DPO)，显著提升了可懂性、说话者相似性及主观评估得分，且在某些评估中超越了人类语音。研究表明，偏好对齐适用于低资源场景，并能有效推广到领域外的应用。

Abstract

Recent advancements in Text-to-Speech (TTS) have shown that language model (LM)-based systems offer competitive performance to their counterparts. Further optimization can be achieved through Preference Alignment

发现论文，激发创造

面向语言模型对齐的高效准确优化

我们提出了一种高效的精确优化方法(EXO)，证明了它在与RL算法同向渐进地优化策略参数函数上是可保证的，并通过绕过与RL算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与DPO进行比较，并进一步展示了在现实人类偏好数据上我们方法的优势。

Feb, 2024

噪声对比对齐语言模型与显性奖励

使用噪声对比评估（NCE）方法来处理明确注释的奖励数据，比起直接偏好优化（DPO）方法在语言模型（LM）对齐方面具有更好的性能和稳定性。

Feb, 2024

相对偏好优化：通过对相同和不同提示的对比响应来增强LLM对齐

通过对比加权机制，Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法，提高了模型对用户偏好的理解能力，并在训练过程中提高了适应性。

Feb, 2024

比较坏苹果和好橙子：通过联合偏好优化对齐大型语言模型

通过联合指导-回应偏好数据进行大型语言模型训练，使用DOVE目标函数优化，可以显著提高LLM的对齐效果，并在总结和开放式对话数据集上分别提高5.2%和3.3%胜率。

Mar, 2024

令牌级直接优化偏好

通过优化策略的token级别前向KL散度约束，引入了Token-level Direct Preference Optimization（TDPO）一种在human preferences上对齐LLMs的新方法，提高了对齐性和多样性

Apr, 2024

自我增强偏好优化：语言模型对齐的离线策略范式

通过引入自我增强式优化（SAPO）方法，本研究提出了一种有效和可扩展的训练范式——自我增强式偏好优化，不依赖于现有的配对数据，通过自我对弈生成负面响应，并结合离线对比基线和历史数据的实时反馈来动态更新响应段，从而匹配或超过现有离线对比的基线方法，如Direct Preference Optimization和Odds Ratio Preference Optimization，同时优于离线自我对弈方法，如SPIN。

May, 2024

参数高效偏好对齐技术的深入探讨

对大型语言模型（LLM）的先前训练和参数微调的对齐方法进行了深入研究，研究了对齐数据集、对齐技术和模型对下游性能的影响，提出了帮助研究人员进行更有效参数节约LLM对齐的关键指南。

Jun, 2024

朝着大型语言模型偏好学习的统一视角：一项调查

本研究针对大型语言模型在与人类偏好对齐方面的复杂性问题，提出了一种统一的研究框架，旨在增强对现有偏好对齐策略的理解。通过将现有策略分解为模型、数据、反馈和算法四个组成部分，研究展示了不同方法间的关联性，并提供了丰富的实例以帮助读者理解。同时，揭示了未来研究方向与挑战。

Sep, 2024

大型语言模型偏好学习的统一视角：综述

本论文针对大型语言模型（LLM）与人类偏好的对齐问题展开研究，指出现有研究方法多样且复杂，限制了偏好对齐的发展。我们提出了一种统一框架，将偏好学习的策略分解为模型、数据、反馈和算法四个组成部分，从而深入理解现有的对齐算法并探索未来的研究方向。

Sep, 2024

面向大型语言模型的偏好学习统一视角：一项综述

本研究针对大型语言模型（LLMs）与人类偏好对齐中的方法复杂性和研究分散性问题，提出了一种统一的框架，通过将现有的偏好学习策略分解为模型、数据、反馈和算法四个组件，深入分析现有的对齐算法。此研究不仅增进了对不同策略之间关系的理解，也为未来的研究提供了新的方向，促进了跨方法的优势互补。

Sep, 2024