NTULM: 以非文本单元丰富社交媒体文本表示

Oct, 2022

NTULM: 以非文本单元丰富社交媒体文本表示

NTULM: Enriching Social Media Text Representations with Non-Textual Units

Jinning Li, Shubhanshu Mishra, Ahmed El-Kishky, Sneha Mehta, Vivek Kulkarni

TL;DR本文构建一个基于 NTUs 的异构社交网络并将其整合到一种预训练语言模型中，实验证明利用 NTUs 显著优于现有的基于文本的基准线，突显出将 NTU 上下文应用于社交媒体 NLP 的重要性。

Abstract

On social media, additional context is often present in the form of annotations and meta-data such as the post's author, mentions, Hashtags, and hyperlinks. We refer to these annotations as →

social media non-textual units ntus pretrained language model context

发现论文，激发创造

增强文本表示法的多 EDU 结构感知检测假新闻

本文介绍了一种基于 Elementary Discourse Unit 的多层次感知模型 (EDU4FD) 来改善文本表示，其中包括序列和图形的 EDU 表示。这两种 EDU 表示被结合为增强的文本表示，以识别并有效感知假新闻。通过实验表明，使用该模型可优于现有基于文本的方法。

May, 2022

神经主题建模优于聚类吗？基于语境嵌入的聚类主题实证研究

本文研究利用高质量的句子表示和适当的词选择方法直接聚类句子表示的方法来生成更连贯和多样化的主题，相比于利用神经模型的方法有更高的效率和简洁性。

Apr, 2022

通过编码对话上下文生成微博话题标签

本文提出了一种新的序列生成框架方法，通过将 hashtag 视为简短的单词序列来自动标注微博帖子的 hashtag，并提出了一个双向关注的方法来一起处理目标文章和由它们引发的对话内容。实验结果表明，我们的模型显著优于基于分类的现有模型，并能够有效生成罕见甚至未见过的 hashtag。

May, 2019

专业字幕场景下的上下文机器翻译案例研究

将影片元数据等额外文本上下文引入机器翻译（MT）流程可以提高翻译质量，通过最近的自动评估可得知，但这类系统在工业领域的积极影响尚未得到证实。我们报告了一项工业案例研究，旨在调查 MT 在专业电视字幕翻译场景中的受益和如何利用额外文本上下文影响后期编辑。我们发现，在修正具有上下文感知模型 MTCue 输出时，与非上下文模型相比，后期编辑人员标记了更少与上下文相关的错误。我们还介绍了一项针对从业后期编辑人员的调查结果，该调查强调了 MT 中持续存在的上下文不足问题。我们的发现加强了在完全上下文化的 MT 领域开展进一步工作的动力。

Jun, 2024

NMT 衍生的语言中介嵌入的实证分析及其在平行语句识别中的应用

该研究系统研究了端到端的神经机器翻译的上下文向量作为句子的交互语言表征的功效，并在可比较语料库中取得了较高的平行句子识别准确率。

Apr, 2017

TAN-NTM：用于神经主题建模的主题注意力网络

提出了一种名为 TAN-NTM 的框架，该框架使用一种新颖的注意力机制，即关注主题相关线索的单词，将文档作为一个标记序列进行处理。该模型发现，利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用，尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上，相对于现有 SOTA 主题模型的 NPMI 一致性得分，我们进行了大量的削减和实验，结果证明我们的方法可以获得～9-15％的改善。此外，我们还证明了与现有一些主题模型相比，我们的方法通过潜在文档主题特征的提高，在文档分类和主题引导关键词生成等两个下游任务上表现更好。

Dec, 2020

UTCNN：社交媒体立场分类的深度学习模型

本研究提出了一种称为 UTCNN 的神经网络模型，它结合了用户品味、主题品味和用户评论等非文本信息，可以在社交媒体、论坛和消息板中用于推文立场的分类。实验表明，UTCNN 的性能比其他模型和深度学习模型都要好，可以很好地解决类别不均衡问题。

Nov, 2016

MTCue：借助神经机器翻译中的非结构化上下文，学习零 - shot 控制额外文本属性

本文提出了一种新的神经机器翻译框架 MTCue，该框架将所有上下文（包括离散变量）解释为文本，并学习基于特定属性的上下文抽象表示空间以提高在对话领域的质量和少量数据情况下的表现。实验证明，与基线相比，该框架在翻译质量方面具有显着的改进，并且能够实现有效的零 - shot 控制。

May, 2023

扩展上下文的神经机器翻译

探究在基于注意力的神经机器翻译中使用扩展上下文的效果，通过对电影字幕进行翻译实验，研究增加翻译单元之外的片段对源语言上下文和双语上下文扩展的影响，发现模型可以区分不同片段的信息，并且在一些情况下可以改善译文连贯性。

Aug, 2017

利用句子上下文进行神经机器翻译

本研究提出了利用句子上下文进行神经机器翻译的新方法，并在 WMT14 英德和英法基准测试中进行了实验，结果表明，通过利用句子上下文可以提高翻译性能，深度句子上下文可以形成更全面的上下文表示。

Jun, 2019