微博上对话语篇和潜在主题的联合模型

Sep, 2018

微博上对话语篇和潜在主题的联合模型

A Joint Model of Conversational Discourse and Latent Topics on Microblogs

Jing Li, Yan Song, Zhongyu Wei, Kam-Fai Wong

TL;DR通过使用会话树以及区分话语角色，本文提出了一个无监督模型来提取微博信息中的主题并进行总结，结果表明这个模型能够有效地发现微博会话中摘要值得关注的内容。

Abstract

Conventional topic models are ineffective for topic extraction from microblog messages, because the data sparseness exhibited in short messages lacking structure and contexts results in poor message-level word co-occurrence patterns. To address this issue, we organize microblog messages

microblog messages conversation trees unsupervised model discourse roles microblog summarization

发现论文，激发创造

微博会话中话题和语篇的联合建模

本文提出了一个无监督框架，用于共同建模微博交谈中的主题内容和话语行为。具体而言，我们提出了一个神经模型来发现表示会话涉及什么（即主题）和反映参与者表达意见的词群（即话语）。广泛的实验表明，我们的模型既能产生连贯的主题又能反映有意义的话语行为。进一步的研究表明，我们的主题和话语表征可以增强微博信息分类的性能，特别是在分类器联合训练的情况下。

Mar, 2019

对话中内容和话语关系的联合建模

该研究提出了一种联合建模方法来识别口头会议中的显著讨论点，并标记发言者之间的话语关系；对于预测内容选择和话语关系，该联合模型在两个普及的会议语料库上表现出优于现有方法的结果；同时，使用基于该模型构建的特征训练分类器相较于现有技术能够显著提高团队成员对团体决策的理解一致性预测性能。

May, 2017

使用耦合分布式主题建模在线话语

本研究提出了一种深度、全局归一化的主题模型，该模型考虑了社交生成语料库中文档之间的结构关系，并通过加入观察到的回复链接来捕捉对话交互信息，以及使用深度体系结构排列的潜在分布式表示，以实现基于 GPU 的有效比例推理过程。我们将该模型应用于 Reddit 论坛中的新社交媒体数据集，并对多个指标进行了评估，包括困惑度和元数据预测，并定量分析了所学到的交互模式。

Sep, 2018

可解释的、话语主题感知的神经语言理解

该研究介绍了一种将主题模型与语言模型相结合的方法，扩展了语言理解的范围，通过主题进行了文档级上下文的抽取，并提出了一种可解释的主题表征，将主题语义加入到语言模型中。通过建模每个句子中的话题，保留了句子与文档主题关联，提出了一种既有隐藏话题，同时又有可解释话题的神经组合语言模型。该模型在多项任务中展现了显著提升的能力，包括语言建模、词义消岐、文档分类、检索和文本生成。

Jun, 2020

话语结构中的潜在主题和语篇共同作用：谁回应了谁

本研究旨在探索话语连贯中回应关系的一般性结构，并提出一种学习潜在议题和话语结构的模型，通过利用主题一致性和话语依存来预测发起 - 回应联系，实验结果表明，我们的模型在中文客服对话等任务上表现显著优于之前的方法。

Apr, 2021

使用潜在排列进行内容建模

提出一种新的贝叶斯主题模型，以学习语篇级别文档结构，通过知识先验和排列分布约束隐藏式主题分配，实现了全局主题选择和排序的偏向性，并在跨文档对齐，文档分割和信息排序三个不同层级的任务中均获得了较好的表现。

Jan, 2014

预训练语言模型表示的潜空间聚类进行主题发现

本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架，通过联合建模主题 - 单词和文档 - 主题分布，有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征，并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题，并提供更好的基于主题的文档表达形式。

Feb, 2022

融合词嵌入的短文本主题建模

本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型，从而改进对小文本数据的话题推断。结果表明，与传统主题模型相比，改进后的方法可以更有效地对短文本数据进行话题建模。

Sep, 2016

全局序结构下的主题和意图联合建模

该研究提出 GMM-LDA 模型，将文档建模为主题词和修辞词的混合，通过加入有序信息分析文档意图结构，并在无监督和有监督的情况下进行实验，结果表明该模型的优越性能。

Dec, 2015

通过编码对话上下文生成微博话题标签

本文提出了一种新的序列生成框架方法，通过将 hashtag 视为简短的单词序列来自动标注微博帖子的 hashtag，并提出了一个双向关注的方法来一起处理目标文章和由它们引发的对话内容。实验结果表明，我们的模型显著优于基于分类的现有模型，并能够有效生成罕见甚至未见过的 hashtag。

May, 2019