本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线,并通过可视化分层编解码器注意力来研究了分层层次的理解,最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。
Apr, 2021
使用生成模型在大型对话语料库上构建开放域对话系统的任务得到了研究,这里我们扩展了分层递归编码器 - 解码器神经网络到对话领域,并证明了该模型与最先进的神经语言模型和后退 n-gram 模型有竞争力,我们进一步探讨了该方法及类似方法的局限性,再展示了如何通过从更大的问答匹配语料库和预训练的词嵌入中引导学习以提高其性能。
Jul, 2015
本文提出了一种基于 transformer 架构的对话策略,其自我注意机制沿着对话的序列进行,可以自然地选择性地忽略或关注对话历史。我们比较了 Transformer Embedding Dialogue(TED)策略与 LSTM 和 REDP 的性能差异,后者是专门设计用来克服 RNN 的局限性。
Oct, 2019
使用树形定位编码方案,结合自然语言分词词汇表,在编码任务中应用 Transformers 所能获得更好的效果
May, 2022
该研究探讨了基于深度神经网络的自动生成响应的模型,着重讨论了结构松散的任务,如基于单词级别的对话响应生成,并提出了基于生成的编码器 - 解码器神经网络架构的新模型,以增强对话的长期历史纪录、建模对话中的不确定性和歧义性、生成具有高级组合结构的响应。
Nov, 2016
提出一种基于神经网络的生成架构,通过潜在的随机变量来建模具有复杂依赖关系的分层结构顺序数据,将该模型应用于对话响应生成任务并与最近的神经网络架构进行比较,实验证明该模型可以提高生成长输出的准确性并维持上下文信息。
May, 2016
本文提出了一种基于文档精华提取的文本摘要方法,并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders,利用自我强化学习模型进一步提高了文本摘要的质量,实现并超越了文本摘要领域的最佳性能,其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。
本文提出了一种基于多层次主题循环编码者解码器的响应生成系统,并利用 Reddit 评论数据集进行模型训练和评估,结果表明该模型能够相比于强基线模型产生更多样、更为相关的响应,这一结果得到了两个自动化评估度量以及人工的评价的支持。
Nov, 2018
本文提出了一种基于 Transformer 的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几种公开对话语料库上都取得了持续的改进
Jul, 2022
通过建立分层结构的 Transformer 模型 Hourglass,让 Transformer 可以更加高效地处理长序列,在 ImageNet32 生成任务方面表现出新的最先进,同时提高了在广泛研究的 enwik8 基准上的语言建模效率。
Oct, 2021