aligning large language models | BriefGPT

关键词aligning large language models

搜索结果 - 4

反转 - RL 对齐：基于示范的反推强化学习用于 LLM 对齐
利用高质量的演示数据，我们提出了一种名为 AfD 的新方法，通过在顺序决策框架中形式化 AfD，解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战，我们通过引入分歧最小化目标来解决 AfD 独特的缺失奖励信号的问题，并提出了一个在定制奖励模
PDFa month ago
比较坏苹果和好橙子：通过联合偏好优化对齐大型语言模型
通过联合指导 - 回应偏好数据进行大型语言模型训练，使用 DOVE 目标函数优化，可以显著提高 LLM 的对齐效果，并在总结和开放式对话数据集上分别提高 5.2% 和 3.3% 胜率。
PDF3 months ago
无人工指导的有限样本 LLM 自校准
我们研究了如何在样本有限的情况下，通过使用上下文学习示例和迭代调整算法，自动对齐大型语言模型，以实现几乎不需要人工监督的自我泛化对齐能力。
PDF6 months ago
参数高效调整助于语言模型对齐
对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集
PDF9 months ago