ViGGO：一个用于开放域对话中的数据到文本生成的视频游戏语料库

Oct, 2019

ViGGO：一个用于开放域对话中的数据到文本生成的视频游戏语料库

ViGGO: A Video Game Corpus for Data-To-Text Generation in Open-Domain Conversation

Juraj Juraska, Kevin K. Bowden, Marilyn Walker

TL;DR本文提出了一个新的、干净且适合用于开放领域对话系统的 7K 样本语料库，探索了视频游戏领域，从而更好地利用深度学习在自然语言生成方面的作用。

Abstract

The uptake of deep learning in natural language generation (NLG) led to the release of both small and relatively large parallel corpora for training neural models. The existing data-to-text datasets are, however,

deep learning natural language generation neural models training data open-domain dialogue systems

发现论文，激发创造

筛选和生成：一种用于神经自然语言生成中语义和风格联合控制的语料库和方法

通过自然描述性用户评论数据免费生成语义和样式标记富文本的可并行结构化意义表示的训练数据集，系统地探索样式标记如何实现神经模型输出的语义和样式联合控制，提出了 YelpNLG，一个跨越不同餐厅属性的高度风格多变的参考文本和富含语义的并行结构化意义表示语料库，实验结果表明该模型可以在保持语义的前提下，成功地达到多个样式目标，包括形容词的词汇选择，输出长度和情感。

Jun, 2019

当众筹遇见人设：创建大规模开放域人设对话语料库

本研究创建了一个大规模的开放式人设对话语料库，解决了创建自然语言数据集时面对的语义敏感性、隐私问题、数据采集难度等多重难题。

Apr, 2023

MUGEN: 视频 - 音频 - 文本多模态理解和生成的游乐场

本文介绍了通过引入音频和新的交互方式收集大量视频和相关音频的大型视频 - 音频 - 文本数据集 MUGEN，并展示了其在多模态理解和生成任务中的潜在应用。

Apr, 2022

基於知識圖譜的合成語料庫生成用於知識增強語言模型預訓練

本文研究了将知识图谱转化为自然语言文本的任务，主要讨论了广泛的开放领域大规模语言生成的挑战，将知识图谱转化为自然语言文本，从而提高了语言模型的事实准确性和减少了毒性。通过对开放领域 QA 和 LAMA 知识探测的任务进行评估，表明该方法在文本检索方面有很大的优势。

Oct, 2020

VGLC：电子游戏关卡语料库

这篇论文介绍了如何利用机器学习技术，对游戏关卡进行自动生成，为此提供了便于处理的游戏关卡数据集。

Jun, 2016

面向语句理解的广覆盖挑战语料库

介绍了一个用于机器学习模型开发和评估的数据集，以句子理解为主题并提到该数据集是目前最大的语料库之一，具有覆盖十种不同英语写作和口语体裁的数据，可评估跨体裁领域适应系统。

Apr, 2017

多语言说服检测：视频游戏是 NLP 宝贵的数据源

本研究提取多语言角色扮演游戏中的劝说对话数据集，并运用自然语言处理模型 BERT 建立劝说检测系统，证明了视频游戏在 NLP 领域中作为数据源的潜力，代码和数据集可在 Zenodo 上获得。

Jul, 2022

基于结构化数据的神经文本生成技术研究及其在传记领域的应用

本文介绍了一个神经模型，用于在大型、丰富的领域中进行从概念到文本的生成。该模型在维基百科的传记新数据集上进行了实验，该数据集比现有资源大一个数量级，具有 70 万个样本，并且词汇量非常丰富，与 Weathergov 或 Robocup 的几百个词相比。我们的神经模型基于最近对于文本生成的条件神经语言模型的工作。为了处理大量单词，我们扩展这些模型，将固定的词汇表与从输入数据库传输特定于样本的词汇的复制操作混合生成的输出句子。我们的神经模型在这项任务上明显优于经过调整的经典 Kneser-Ney 语言模型，BLEU 值近 15。

Mar, 2016

针对任务导向对话的少样本自然语言生成

该论文提出 FewShotWoz 模型作为 Natural Language Generation 模块，使用 SC-GPT 模型进行预训练来实现带有有限数量 labeled data 的多领域适配，通过实验证明其效果显著优于已有方法。

Feb, 2020

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018