通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答

May, 2024

通过多透视用户偏好排名反馈对齐 LLMs 的编程问题回答

Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering

Hongyu Yang, Liyang He, Min Hou, Shuanghong Shen, Rui Li...

TL;DR利用人类反馈强化学习从大型语言模型出发，以解决编码社区问答中多个答案和用户偏好差异的问题，提出了一种名为 ALMupQA 的框架，通过多角度用户偏好排序反馈来生成面向用户的答案。实验证明，ALMupQA 相比基础模型在 BLEU 指标上提升了近 11%，BERTScore 和 CodeBERTScore 分别提高了 20% 和 17.5%。

Abstract

code community question answering (CCQA) seeks to tackle programming-related issues, thereby boosting productivity in both software engineering and academic research. Recent advancements in reinforcement learning from h

code community question answering reinforcement learning from human feedback large language models multi-perspective user preference ranking-based feedback almupqa framework

发现论文，激发创造

公共社区评分用于编程领域中的问答强化学习

本研究通过采用人类反馈驱动的强化学习与来自 Stack Overflow 的得分，加强了 GPT Neo 125M 在编程社区问答（CQA）中的性能，在使用近端策略优化（PPO）的 fine-tuning 过程中使用了两种不同的奖励模型训练策略，并通过引入辅助评分机制，揭示了在编程领域中常规语言度量在评估回答时的局限性，强调了领域特定评估方法的重要性，通过准确的分析，本文探讨了将人类反馈驱动的强化学习应用于编程 CQA 以及环境感知评估的复杂性，在优化大型语言模型方面对持续努力做出了贡献。

Jan, 2024

CodeUltraFeedback: 一个用于将大型语言模型与编码偏好对齐的 LLM 作为裁判数据集

通过自动化指标和静态分析工具评估大型语言模型与用户定义的编码偏好之间的对齐是一项具有挑战性的任务。本文介绍了 CodeUltraFeedback，这是一个包含 10,000 个复杂指令的偏好数据集，通过 AI 反馈调整和对齐语言模型与编码偏好。我们通过 14 个不同的语言模型对指令生成响应，并使用 LLM 作为评判器的方法对其对齐性进行了标注。我们还提出了 CODAL-Bench，用于评估语言模型与编码偏好对齐的基准。结果表明，通过使用 CodeUltraFeedback 的 AI 反馈数据，采用增强学习和直接优化编码偏好的方法，CodeLlama-7B-Instruct 在 CODAL-Bench 上优于 34B 模型，验证了 CodeUltraFeedback 在偏好调整方面的实用性。此外，我们还展示了经过优化的 CodeLlama 模型相比于未对齐的基础模型在 HumanEval + 上的功能正确性有所改进。因此，我们的贡献弥合了语言模型对编码偏好的调整差距，并为模型对齐和代码智能的进一步发展奠定了基础。

Mar, 2024

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

领域特定问答中对 LLM 的知识偏好调整

应用大型语言模型和领域知识图谱解决真实场景中的特定领域问答问题，通过构建两种偏好集合来解决用户友好性和可靠性的问题，同时使用新的对齐目标训练更好的语言模型。

Nov, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。

Sep, 2023