通过自然描述性用户评论数据免费生成语义和样式标记富文本的可并行结构化意义表示的训练数据集,系统地探索样式标记如何实现神经模型输出的语义和样式联合控制,提出了 YelpNLG,一个跨越不同餐厅属性的高度风格多变的参考文本和富含语义的并行结构化意义表示语料库,实验结果表明该模型可以在保持语义的前提下,成功地达到多个样式目标,包括形容词的词汇选择,输出长度和情感。
Jun, 2019
本研究创建了一个大规模的开放式人设对话语料库,解决了创建自然语言数据集时面对的语义敏感性、隐私问题、数据采集难度等多重难题。
Apr, 2023
本文介绍了通过引入音频和新的交互方式收集大量视频和相关音频的大型视频 - 音频 - 文本数据集 MUGEN,并展示了其在多模态理解和生成任务中的潜在应用。
Apr, 2022
本文研究了将知识图谱转化为自然语言文本的任务,主要讨论了广泛的开放领域大规模语言生成的挑战,将知识图谱转化为自然语言文本,从而提高了语言模型的事实准确性和减少了毒性。通过对开放领域 QA 和 LAMA 知识探测的任务进行评估,表明该方法在文本检索方面有很大的优势。
Oct, 2020
这篇论文介绍了如何利用机器学习技术,对游戏关卡进行自动生成,为此提供了便于处理的游戏关卡数据集。
Jun, 2016
介绍了一个用于机器学习模型开发和评估的数据集,以句子理解为主题并提到该数据集是目前最大的语料库之一,具有覆盖十种不同英语写作和口语体裁的数据,可评估跨体裁领域适应系统。
Apr, 2017
本研究提取多语言角色扮演游戏中的劝说对话数据集,并运用自然语言处理模型 BERT 建立劝说检测系统,证明了视频游戏在 NLP 领域中作为数据源的潜力,代码和数据集可在 Zenodo 上获得。
Jul, 2022
本文介绍了一个神经模型,用于在大型、丰富的领域中进行从概念到文本的生成。该模型在维基百科的传记新数据集上进行了实验,该数据集比现有资源大一个数量级,具有 70 万个样本,并且词汇量非常丰富,与 Weathergov 或 Robocup 的几百个词相比。我们的神经模型基于最近对于文本生成的条件神经语言模型的工作。为了处理大量单词,我们扩展这些模型,将固定的词汇表与从输入数据库传输特定于样本的词汇的复制操作混合生成的输出句子。我们的神经模型在这项任务上明显优于经过调整的经典 Kneser-Ney 语言模型,BLEU 值近 15。
Mar, 2016
该论文提出 FewShotWoz 模型作为 Natural Language Generation 模块,使用 SC-GPT 模型进行预训练来实现带有有限数量 labeled data 的多领域适配,通过实验证明其效果显著优于已有方法。
Feb, 2020
本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集,利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型,并通过多项评估指标和人类评估研究验证其效果。
Sep, 2018