多轮指导对话的归纳 - 演绎策略重用

Apr, 2024

多轮指导对话的归纳 - 演绎策略重用

Inductive-Deductive Strategy Reuse for Multi-Turn Instructional Dialogues

Jiao Ou, Jiayu Wu, Che Liu, Fuzheng Zhang, Di Zhang...

TL;DR利用复杂对话流程的明确建模，从各种真实对话中提取高级策略并将其应用于新的对话情境，以产生多样化、深入和富有洞见的指示，以提高大型语言模型与人类期望的一致性。

Abstract

Aligning large language models (LLMs) with human expectations requires high-quality instructional dialogues, which can be achieved by raising diverse, in-depth, and insightful instructions that deepen interaction

large language models instructional dialogues user simulator dialogue flows instructional strategy reuse

发现论文，激发创造

基于归纳推理的心理访谈中少样本对话策略学习

构建对话系统（对激励用户采用积极生活方式改变的任务）需要一个能够有效地推断如何激励用户的系统。我们提出了 DIIT 框架，它能够从专家示范中学习和应用对话策略（自然语言归纳法则）。自然语言策略描述的自动化和人工评估表明，DIIR 发现的自然语言策略描述能够改善积极倾听技巧，减少主动给出建议，并促进更协作和不过于权威的回应，胜过各种示范利用方法。

Mar, 2024

对话回复生成的上下文依赖指令调整

通过上下文指导生成回复的语言模型在多轮对话生成任务中取得了令人瞩目的成果，通过对指令进行微调并将其与输入对齐，可以显著提高生成性能。

Nov, 2023

CESAR: 自动归纳多轮对话的复合指令

将大规模语言模型与复杂指令的多任务训练相结合，通过 CESAR 框架在 InstructDial++ 数据集上进行试验，证明了其提供丰富指令和遵循复合提示的可扩展性。

Nov, 2023

原始文本就是您所需的：大规模语言模型的知识密集型多轮指导调优

通过利用对话逻辑在生成大型语言模型的季节性多轮对话中的原始文档进行指令调整，本文介绍了一种名为 R2S 的新颖框架，该框架整合了开放源代码数据集和领域特定网络爬行文档的原始文档来创建基准 K-BENCH，涵盖了维基百科（英文）、科学（中文）和手工艺品（中文）等多样的领域，从而在指令调整中注入了广泛的领域知识，提高了 SFT 模型的适应性和效果。

Jul, 2024

大型语言模型中的不完全循环：演绎、归纳和演绎学习

通过研究不同类型的推理方式，以及对语言模型进行的指令跟随、少样本提示和指令推断实验，我们发现即使在一些最大的语言模型中，推理的方式仍然是非系统性的，不同的学习机制可能被看似相似的提示程序调用。

Apr, 2024

面向任务的对话与上下文学习

使用大型语言模型（LLMs）的上下文学习能力与业务逻辑的确定执行相结合，描述了一种构建面向任务的对话系统的系统。与主要用于行业的基于意图的 NLU 方法相比较，我们的实验表明，使用我们的系统开发聊天机器人所需的工作量明显较少，这些聊天机器人可以成功地进行复杂对话，并且我们的系统对于大规模任务导向的对话系统具有可扩展的有益特性。我们提供了我们的实现用于使用和进一步研究。

Feb, 2024

层级归纳迁移学习在持续对话学习中的应用

本文提出了一种基于递归传递的框架，通过引入适配器模块和迁移学习来解决在线聊天场景中为每个新任务调整模型导致容量过大及知识忘却问题。实验结果表明，在部署友好型模型容量下，我们的框架表现出可比较的性能

Mar, 2022

通过强化学习和人类示范来减少说服对话中的重复和不一致性

本文通过引入强化学习（RL）进行用户交互训练，实现了一个更加人性化的劝说对话系统，并成功在捐赠劝说任务中取得了优于先前最先进的对话模型的表现。

Dec, 2020

指令归纳：从少量样本到自然语言任务描述

该研究论文证明使用 in-context learning 可让大型语言模型显式推断潜在任务，通过自然语言生成指令，InstructGPT 的表现达到了人类的 65.7％，建议指令感应可能是一种学习范例。

May, 2022

自我解释提示改善大型语言模型中的对话理解

通过自解释提示策略来增强大语言模型在多轮对话中的理解能力，实验证实该方法在多个基准数据集上持续优于其他零样本提示，并达到或超过少样本提示的效果，证明其在提升大语言模型在复杂对话任务中的理解能力方面具有潜力。

Sep, 2023