self-alignment | BriefGPT - AI 论文速递

关键词self-alignment

搜索结果 - 9

ICML通过 Nash 学习和自适应反馈进行语言对齐
借助 Nash 学习和自适应反馈的语言对齐算法（LANA）消除了学习偏好模型或存在注释数据集的需求，实现了大规模语言模型对齐的自我对齐能力。
PDF12 days ago
使用 DPO 隐式奖励进行自助式语言模型训练
使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。
PDF20 days ago
基于隐性奖励差异的经验偏好优化
本文提出了一种名为 $i$REPO 的新型大型语言模型对齐框架，通过利用隐式奖励对差异回归进行经验偏好优化，采用自动生成的数据集迭代地通过新型的回归损失函数改进对齐策略，实现软标签的自我对齐，并在实验中展现出对优化基准的超越。
PDFa month ago
深思专家的混合（MoTE）：思维链和专家混合在自我对齐中的协同作用
使用 Chain of Thought（CoT）方法，并结合 Mixture of insighTful Experts（MoTE）体系结构，提出了一种新颖的自我对齐方法，以改善大语言模型和人类价值之间的对齐问题，显著提高对齐效率。
PDF2 months ago
自我对齐以提高事实准确性：通过自我评估减少 LLMs 中的幻觉
探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。
PDF5 months ago
踩脚自校准：通过自启动扩展 LLM 的尺度自对准
自校准是降低人工标注成本并确保模型能力的有效方法。本文探讨了多次引导自校准对大型语言模型的影响，发现多次引导自校准明显优于单轮引导，通过在上下文学习中保证数据多样性。基于这些发现，提出了 Step-On-Feet Tuning（SOFT）用
PDF5 months ago
自我专业化：揭示大型语言模型中的潜在专长
通过自我对齐可以在专业领域中提高零样本和小样本性能，利用特定领域的无标签数据和一些标记的种子进行自我特化，有效地从预训练大型语言模型中提取出专家模型。
PDF9 months ago
指导反向翻译的自对齐
我们提出了一种可扩展的方法，通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译，使用少量种子数据和给定的网络语料库对语言模型进行微调，通过为网络文档生成指令提示来构建训练样本（自助增强），然后
PDFa year ago
多曝光图像融合中紧凑稳健的架构探讨
本研究提出了一种基于深度学习的图像融合算法，通过使用自对准模块和细节补全模块实现图像对齐和特征融合。在神经结构搜索的基础上，找到了更加紧凑和高效的网络结构，实现了比较优异的成果。
PDFa year ago