Q-Probe: 语言模型奖励最大化的轻量级方法

Feb, 2024

Q-Probe: 语言模型奖励最大化的轻量级方法

Q-Probe: A Lightweight Approach to Reward Maximization for Language Models

Kenneth Li, Samy Jelassi, Hugh Zhang, Sham Kakade, Martin Wattenberg...

TL;DR使用一种称为 Q-probing 的方法，适应预训练语言模型以最大化任务特定的奖励函数，并通过学习模型嵌入空间上的简单线性函数来重新加权候选完成，从而获得在基于地面真实奖励（代码生成）和偏好数据定义的隐式奖励的领域中的增益。

Abstract

We present an approach called q-probing to adapt a pre-trained language model to maximize a task-specific reward function. At a high level

q-probing pre-trained language model reward function linear function direct policy learning objectives

发现论文，激发创造

通过提示探测

本文提出了一种无模型的探测方法 —— 提示探测法，通过在 5 个探测任务上的实验表明，这种方法在提取信息方面与诊断探针相当或更好，并且可以自我学习得更少。此外，结合关注头修剪与提示探测法，分析模型在其架构中存储语言信息的位置，并通过删除对特定语言属性至关重要的头部来评估预训练的有用性。

Jul, 2022

利用探测预测微调性能

本研究探讨了使用轻量 Probing 方法去解释 NLP 模型内在机制的方法，通过对三项探测测试的准确性精确预测了模型的调优表现，为 NLP 模型的发展提供了可能。

Oct, 2022

重构 - 探索法：一种对预训练语言模型进行生物医学知识探测的对比性方法

本研究采用对比探针法，探究生物医学领域基于 UMLS 词汇库的预训练语言模型的知识转移机制，并提出了 MedLAMA 作为基准来测试多种最先进的语言模型和探测方法，其中 Contrastive-Probe 方法的性能表现优于其他方法，为此领域更合适的探针技术的发展提供了启示。

Oct, 2021

以近端策略优化实现经济高效的预训练语言模型微调，群众外包是否让你的银行雪上加霜？

我们提出了一种自监督文本排名方法，通过概率抽样、文本排名和聚类算法，以及奖励模型，优化生成策略，从而大大降低了 ChatGPT 等语言模型的训练成本，并证明了语言模型的自我纠正潜力。

Feb, 2024

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

提示作为探究：利用语言模型进行知识库构建

本文提出了一种名为 ProP 的方法，它利用 GPT-3 这个大型语言模型进行知识库构建任务，结合多种提示技巧，结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等，从而获得了较高的预测质量。

Aug, 2022

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

通过强化学习对语言模型进行微调以提升精确目标分子生成

本研究采用创新的全新药物设计策略，利用语言模型的能力为特定蛋白质设计有针对性的药物。我们采用强化学习框架和近端策略优化对模型进行优化，获得生成适用于蛋白质靶点的药物的策略。通过融合药物 - 靶点相互作用和分子有效性的综合奖励函数，我们的方法经过强化学习的微调展现出很大的潜力，在分子有效性、相互作用效果和关键化学特性方面实现了显著的改进，分别达到了 65.37 的药物热似度定量评估（QED）、321.55 的分子量（MW）和 4.47 的辛醇 - 水分配系数 (logP)。此外，在生成的药物中，仅有 0.041% 没有新颖性。

May, 2024

能否利用探测来更好地理解 BERT NLU 的微调和知识蒸馏？

本论文通过 probing 调查 fine-tuning 和 knowledge distillation 过程中，BERT 基础的自然语言理解（NLU）模型出现的现象。实验结果表明，当前形式的 probing 范式不适合回答这些问题，因此，信息可解码的量化是探测范式在许多实际应用中至关重要的。

Jan, 2023