NTULM: 以非文本单元丰富社交媒体文本表示
本文介绍了一种基于 Elementary Discourse Unit 的多层次感知模型 (EDU4FD) 来改善文本表示,其中包括序列和图形的 EDU 表示。 这两种 EDU 表示被结合为增强的文本表示,以识别并有效感知假新闻。 通过实验表明,使用该模型可优于现有基于文本的方法。
May, 2022
本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题,相比于利用神经模型的方法有更高的效率和简洁性。
Apr, 2022
本文提出了一种新的序列生成框架方法,通过将 hashtag 视为简短的单词序列来自动标注微博帖子的 hashtag,并提出了一个双向关注的方法来一起处理目标文章和由它们引发的对话内容。实验结果表明,我们的模型显著优于基于分类的现有模型,并能够有效生成罕见甚至未见过的 hashtag。
May, 2019
将影片元数据等额外文本上下文引入机器翻译(MT)流程可以提高翻译质量,通过最近的自动评估可得知,但这类系统在工业领域的积极影响尚未得到证实。我们报告了一项工业案例研究,旨在调查 MT 在专业电视字幕翻译场景中的受益和如何利用额外文本上下文影响后期编辑。我们发现,在修正具有上下文感知模型 MTCue 输出时,与非上下文模型相比,后期编辑人员标记了更少与上下文相关的错误。我们还介绍了一项针对从业后期编辑人员的调查结果,该调查强调了 MT 中持续存在的上下文不足问题。我们的发现加强了在完全上下文化的 MT 领域开展进一步工作的动力。
Jun, 2024
该研究系统研究了端到端的神经机器翻译的上下文向量作为句子的交互语言表征的功效,并在可比较语料库中取得了较高的平行句子识别准确率。
Apr, 2017
提出了一种名为 TAN-NTM 的框架,该框架使用一种新颖的注意力机制,即关注主题相关线索的单词,将文档作为一个标记序列进行处理。该模型发现,利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用,尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上,相对于现有 SOTA 主题模型的 NPMI 一致性得分,我们进行了大量的削减和实验,结果证明我们的方法可以获得~9-15%的改善。此外,我们还证明了与现有一些主题模型相比,我们的方法通过潜在文档主题特征的提高,在文档分类和主题引导关键词生成等两个下游任务上表现更好。
Dec, 2020
本研究提出了一种称为 UTCNN 的神经网络模型,它结合了用户品味、主题品味和用户评论等非文本信息,可以在社交媒体、论坛和消息板中用于推文立场的分类。实验表明,UTCNN 的性能比其他模型和深度学习模型都要好,可以很好地解决类别不均衡问题。
Nov, 2016
本文提出了一种新的神经机器翻译框架 MTCue,该框架将所有上下文(包括离散变量)解释为文本,并学习基于特定属性的上下文抽象表示空间以提高在对话领域的质量和少量数据情况下的表现。实验证明,与基线相比,该框架在翻译质量方面具有显着的改进,并且能够实现有效的零 - shot 控制。
May, 2023
探究在基于注意力的神经机器翻译中使用扩展上下文的效果,通过对电影字幕进行翻译实验,研究增加翻译单元之外的片段对源语言上下文和双语上下文扩展的影响,发现模型可以区分不同片段的信息,并且在一些情况下可以改善译文连贯性。
Aug, 2017
本研究提出了利用句子上下文进行神经机器翻译的新方法,并在 WMT14 英德和英法基准测试中进行了实验,结果表明,通过利用句子上下文可以提高翻译性能,深度句子上下文可以形成更全面的上下文表示。
Jun, 2019