RuleR: 基于规则的数据循环利用提高 LLM 可控性

Jun, 2024

RuleR: 基于规则的数据循环利用提高 LLM 可控性

RuleR: Improving LLM Controllability by Rule-based Data Recycling

Ming Li, Han Chen, Chenguang Wang, Dang Nguyen, Dianqi Li...

TL;DR大型语言模型仍然缺乏对其回应的精细控制能力，对提高性能和用户体验至关重要。为了弥补这一差距，我们提出了基于规则的数据重用方法 (RuleR)，该方法根据预定义的规则将多个约束集成到原始数据样本中，从而创建新的训练任务以巩固语言模型的可控性。实验证明，RuleR 在提高语言模型可控性的同时保持了普通指令跟随能力。

Abstract

large language models (LLMs) still lack delicate controllability over their responses, which is critical to enhancing their performance and the user experience. However, curating supervised fine-tuning (SFT) data

large language models controllability supervised fine-tuning datasets rule-based data recycling llm controllability

发现论文，激发创造

反射调优：数据再利用提升 LLM 指令调优

通过反思调整指令的判断能力，本研究提出了一种名为 “reflection-tuning” 的新方法，利用 Oracle LLM 自省和提高数据中指令和回应的质量来优化大型语言模型（LLMs），在广泛使用的评估基准上的实验证明，我们用反思调整后的数据训练的 LLMs 在各种测评中表现优于使用现有数据集训练的模型。

Oct, 2023

让大型语言模型能够从规则中学习

通过从详细的规则中提取知识并显式编码到大型语言模型的参数中，我们提出了一种新的学习范式，即规则蒸馏，并证明这种方法在样本大小和泛化能力方面比基于示例的学习更加高效。

Nov, 2023

故障为途：通过无需调整规则的积累增强大型语言模型

提出了一种无需调参的规则积累 (TUNING-FREE RULE ACCUMULATION, TRAN) 框架，通过从过去的错误中学习，指导大型语言模型 (Large Language Models, LLMs) 提升其性能，使其避免重复相似的错误，并得到了大幅度改进。

Oct, 2023

TeaMs-RL：通过强化学习教授 LLMs 更好地自我指导

通过使用增强学习直接生成基础指令数据集，TeaMs-RL 方法能够在单一微调步骤中提高大型语言模型的能力，减少人为参与需求、模型查询次数以及提高模型隐私保护能力。

Mar, 2024

强化自训练（ReST）的语言建模

ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法，可以有效地提高机器翻译的质量和效率。

Aug, 2023

LLM-R2: 改进的基于规则重写系统的大型语言模型用于提升查询效率

通过采用大语言模型（LLM）为数据库重写系统提出了一种名为 LLM-R2 的新型查询重写方法，该方法能够极大地提高查询执行效率，并且优于基线方法。

Apr, 2024

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

强化学习思考的语言模型自我提升

本文介绍了一种新的无监督方法 SIRLC，通过强化学习来提高 LLMs 的性能，无需依赖外部标签。该方法把 LLMs 分配为学生和教师两个角色，通过评分策略来更新模型参数，实验结果表明，SIRLC 能够有效提高 LLM 的表现，适用于多个自然语言处理任务，并且无需外部监督。

May, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023