- 知识增强文本生成调查
本文综述了过去五年间关于知识增强文本生成的研究,主要内容包括将各种形式的知识融合到文本生成中的通用方法与架构,以及基于不同形式的知识数据的具体技术和应用。
- 数据到文本生成的变分模板机
本文提出了一种用于从结构化数据生成文本描述的新方法 - VTM (变分模板机),该方法能够从有配对和无配对的数据中学习生成模板,提高文本生成的多样性并保持良好的流畅度和质量。
- EMNLP选择和关注:走向可控的文本内容选择生成
本研究提出了一种新的神经编码 - 解码模型,它将内容选择与表面实现分离,实现了对生成文本内容的控制。该模型在数据到文本和标题生成任务中获得了有希望的结果,为文本生成中的可控内容选择铺平了道路。
- ACL历史文本规范化系统的大规模比较
本文介绍迄今最大的历史文本规范化研究,涵盖了基于规则、距离度量、基于字符的机器翻译、神经编码器 - 解码器模型等所有提出的规范化技术类别,并使用不同的数据集和评估方法进行比较,分析了训练数据数量的影响,并提供了公开的数据集和脚本。
- ACLEvent2Mind:针对事件、意图和反应的常识推理
研究探讨了一种新的常识推断任务,通过构建新的众包语料库并使用神经编码器 - 解码器模型,成功地分析先前未见过的事件并推断参与者的意图和反应,揭示了现代电影剧本中普遍存在的隐性性别不平等问题。
- 定时多任务学习:从句法到翻译
提出了一种神经编码器 - 解码器机器翻译模型框架,该模型开始交替学习语法和翻译,逐渐将重点放在翻译上,实现了在相对较大的平行语料库(WMT14 英语到德语)和低资源(WIT 德语到英语)设置中的 BLEU 得分显着提高。
- 低资源语音到文本翻译
通过实验研究,我们发现在资源有限的情况下,从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度,并且在训练数据相对较少的情况下,仍然可以实现相对较高的词汇精度和召回率。
- ACL使用条件变分自编码器为神经对话模型学习语篇级多样性
本研究提出了一种基于条件变分自编码器(CVAE)的框架,该框架利用潜在变量来学习潜在意图的分布,并仅使用贪婪解码器生成多样化响应,其可以更好地捕获感性多样性和提高决策能力。实验证明,与基线方法相比,所提出的模型可以生成更丰富的响应,并且具有 - CVPR视觉对话
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用 Latre Fusion、Hier - EMNLP神经编码器 - 解码器中的输出长度控制
本文提出两种基于解码和两种基于学习的方法,用于控制神经编码器 - 解码器模型的输出序列长度,结果表明学习方法在摘要生成任务中具有控制长度而不降低摘要质量的能力。
- ACL使用显式形态表示的单模型编码器 - 解码器用于重构
提出利用神经编码器 - 解码器模型对形态学再生成的任务进行建模,进一步提出利用基于编辑树的输出自动校正方法,降低对训练数据量的依赖,实现了对低资源语言的形态学再生任务的优化。
- 将结构对齐偏置纳入一种注意力神经翻译模型
本文通过结合词汇调整模型,位置偏差,马尔科夫和翻译方向的一致性等多种结构偏差因子,扩展了注意力神经翻译模型,相比基线模型和标准短语模型在多种语言对中取得了提升,验证了在低资源环境中的有效性。