PIPPA：一个部分合成的对话数据集

Aug, 2023

PIPPA：一个部分合成的对话数据集

PIPPA: A Partially Synthetic Conversational Dataset

Tear Gosling, Alpin Dale, Yinhe Zheng

TL;DR使用大语言模型进行日常对话和角色扮演应用的研究已经引起了广泛的兴趣，为了解决现有会话和角色扮演数据集的不足，我们推出了一个名为 PIPPA（人类与人工智能之间的个人互动对）的半合成数据集，该数据集由一群角色扮演爱好者参与的社区驱动的众包努力的结果。该数据集包含 1 百万个话语，分布在 26,000 个对话会话中，为研究人员和人工智能开发者在角色扮演场景中探索和优化会话型人工智能系统提供了丰富的资源。

Abstract

With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational an

large language models conversational ai role-play applications partially-synthetic dataset pippa

发现论文，激发创造

PLACES：用于社交对话综合的激励语言模型

使用专家编写的少量对话作为上下文示例，通过提示生成社交对话数据集，可在多方交流任务中创建更多的合成数据。与人类收集的对话相比，合成的多方交流在所有度量维度上都获得了更多的好评。

Feb, 2023

捕捉思维，而非语言：使用个性指示数据增强角色扮演语言模型

我们通过应用特征性数据提升小型角色扮演语言模型，实验证明使用我们的数据集训练的模型在一般和与个性相关的评估中展现了高级角色扮演能力。

Jun, 2024

借助大语言模型生成忠实的以人为基础的对话数据集

通过建立 Generator-Critic 架构，使用 LLM 生成会话，借助 Synthetic-Persona-Chat 评估了高质量对话数据集对 NLP 模型的影响。

Dec, 2023

基于个性化的大型语言模型的人工对话生成

我们提供了一种新颖的端到端的基于个性的合成对话数据生成流程，专门设计用于通过提示语从大型语言模型中引出回应。我们设计了提示语以在用户与聊天机器人互动时考虑真实场景，生成更像人类的对话。我们介绍了 PSYDIAL，第一个专注于个性化对话的韩语对话数据集，该数据集使用我们提出的流程进行策划。值得注意的是，在我们的研究中，我们专注于大五人格模型中的外向性维度。实验结果表明，虽然预训练模型和用闲聊数据集进行微调的模型难以生成反映个性的回应，但用 PSYDIAL 进行训练的模型显示出显著的改进。我们的流程的通用性不仅限于对话任务，还可用于其他非对话相关的应用。这项研究为韩语和潜在的其他语言中更具细微差别、以个性为驱动的对话型人工智能开辟了更多可能性。我们的代码公开可用于此链接。

Apr, 2024

模仿小说角色进行开放领域聊天的聊天机器人只需少量话语

本文介绍了一种使用虚构人物作为人工语言生成模型的实现方向，提出了一种名为 “Pseudo Dialog Prompting” 的新方法，通过大型语言模型结合虚构人物的话语，生成模仿虚构人物风格的回应。研究表明，该方法能够更好地提取虚构人物的风格特点。

Apr, 2022

个人属性推断的合成数据集

通过构建仿真框架和生成合成评论数据集，研究人员证明其提供了一个强大且保护隐私的基础，用于理解和减轻基于推理的大型语言模型所带来的隐私威胁。

Jun, 2024

通过相互人设感知实现的对话生成

本文提出了基于 P^2 框架的机器人 P^2 Bot，该框架旨在显式地建立对话者间的理解模型。实验结果表明该框架在大型公共数据集 Persona-Chat 上取得了显著效果提升。

Apr, 2020

多方聊天：在人群聚集中使用对话代理和模型

本研究通过构建基于角色扮演的环境和收集对话数据集，评估了语言模型在多方对话场景下的表现，发现新的数据集 MultiLIGHT 可以在多人场景下显著提高分析表现。

Apr, 2023

非自然语言处理：弥合合成语言与自然语言数据之间的差距

通过 “模拟到真实” 的技术，本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型，再利用学习到的句子嵌入来定义距离度量，从而实现将自然语言映射到合成数据集的支撑上，训练出只使用合成训练数据的自然语言处理模型，其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。

Apr, 2020

对话式数据探索：为数据科学流程设计带来颠覆性变革

该论文提出了一种由系统 Chatin 实现的对话式方法，旨在为直观的数据探索体验提供驱动。Chatin 是一种先进的工具，通过解锁数据科学解决方案的全部潜力，赋予来自各个学科的非技术用户探索数据并从中提取知识的能力。

Nov, 2023