PLACES:用于社交对话综合的激励语言模型
提出了一种利用 GPT 模型进行对话系统评估的新框架,通过对模型进行特定条件训练来生成评估指标,采用少量的演示和指导进行提示,可以在自动化评估过程中取得与人类评价高度相关的结果。
Apr, 2023
研究采用大型语言模型替代 fine-tuning 来实现可控制的混合对话,并在 PersuasionForGood 和 Emotional Support Conversations 两个任务中通过人类评估和自动度量标准显示了改进。
May, 2023
对多轮对话数据生成进行了系统综述,包括开放领域对话系统、任务导向对话系统和信息搜索对话系统,提出了一个概括对话数据生成系统主要原则的通用框架,并探讨了合成对话数据的评估指标和方法、当前领域的挑战以及未来研究的潜在方向。
May, 2024
本文介绍了 Synthetic prompting 方法,该方法利用少量手工示例来提示模型自行生成更多示例,并选择有效的演示文稿以引出更好的推理。在数字、符号和算法推理任务上评估了该方法,并表明其优于现有提示技术。
Feb, 2023
本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话,从而可靠地收集用户自报数据。通过在线研究(N = 48),我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估,并发现提示设计和主题显着影响了对话流程和数据收集表现。
Jan, 2023
通过目标导向的对话式代理生成线性对话样本,实现与用户的对话以获取所需的线性模型信息,并通过人工和自动评估,包括使用 GPT-4 模仿人工评估指标的评估方法,验证对话的高质量性。
Jan, 2024
通过 “模拟到真实” 的技术,本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型,再利用学习到的句子嵌入来定义距离度量,从而实现将自然语言映射到合成数据集的支撑上,训练出只使用合成训练数据的自然语言处理模型,其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。
Apr, 2020
本研究发表了名为 PEx Conversations Dataset 的第一个菲律宾会话数据集,并介绍了使用 Tagalog RoBERTa 模型增加现有 corpora 大小的数据增强方法,最后发布了能够生成相关前三个回复的第一个菲律宾会话响应生成器,并成功地将合成数据与人类数据结合使响应生成器的性能提高了 12.2%。
Apr, 2022
通过建立 Generator-Critic 架构,使用 LLM 生成会话,借助 Synthetic-Persona-Chat 评估了高质量对话数据集对 NLP 模型的影响。
Dec, 2023
通过五项任务评估语言模型在对话推荐中模拟人类行为的效果,研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异,并提供了模型选择和提示策略的见解。
Mar, 2024