- MM内在确定主题数量的方法:是否可能?
通过对几个公开可用的语料库上应用多种主题模型的各种方法的性能进行调查,揭示了内部方法并不可靠和准确,主题的数量是方法和模型相关的,而不是语料库的绝对属性。我们得出结论,应该开发其他解决这个问题的方法,并提出一些进一步研究的有希望的方向。
- 异质儿童心理健康临床记录的动态主题语言模型
通过长期主题模型,我们研究了 COVID-19 期间儿童心理健康的变化,发现性别和性别少数群体的儿童在大流行事件和疫苗相关新闻方面表现更为明显,为临床医生识别与儿童性别和性别认同相关的心理健康差异提供了宝贵的见解。
- 通过主动回归实现精细机制设计以获得近似结构先验
通过使用主题模型,设计了一个主动学习组件和一个机制设计组件,以最大化卖家利润,解决了具有大量销售商品和来自高维未知先验分布中的策略性竞标者的问题。该研究首次发现了机制设计和主动学习的联系,为将随机线性代数基元应用于机制设计开辟了新的可能性。
- HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示
我们提出了一种新方法来丰富 HuBERT 的语义表示,通过将主题模型应用于伪标签以为每个话语生成主题标签,并使用主题标签作为教师添加辅助的主题分类任务,以无监督的方式融入额外的全局语义信息。实验证明,我们的方法在大多数任务中实现了与基准方法 - 基于跨语言词向量的多语言新闻聚类研究
本文提出一种用于分类跨语言新闻的 incorporating clustering 模型,该模型使用跨语言向量表示新闻,使用 LDA 主题模型表示新闻内容,采用 Single-Pass 聚类算法进行优化,并利用知识蒸馏技术,将两个语义空间拟 - ICLR用主题嵌入混合表示单词嵌入混合
本文提出了一种新的主题建模框架,在该框架中,每个文档都被视为一组单词嵌入向量,每个主题都被建模为嵌入空间中的嵌入向量,并在相同的向量空间中嵌入单词和主题,定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异,并优化主题嵌入以最小 - 通过学习对话层特征实现对话式语音识别
本文提出一种基于端到端神经网络框架的会话自动语音识别模型,该模型使用潜变量模块来学习会话级别的角色偏好和主题连贯性,并使用一个主题模型来偏置解码器的输出,以预测主题中的单词。在两个汉语会话自动语音识别任务上的实验表明,该模型实现了最大 12 - 主题扩充生成器用于抽象化摘要
该研究提出了一种新的解码器,通过条件调整文本和文档的潜在主题来生成摘要,使用 LDA 等主题模型揭示了更多的全局语义信息,使解码器能够访问文本语料库级别的词共现统计信息,实验表明,与现有模型相比,该方法能显著提高 ROUGE 分数。
- ACL法律领域分类:新加坡最高法院裁决文本分类器的比较研究
本文研究比较了各种机器学习方法,用于将判决分为不同的法律领域,结果表明包括主题模型、词向量和语言模型分类器在内的所有方法都表现良好,但还需要进一步优化这些先进的方法以适应法律领域。
- AAAITopicEq:科技文本联合主题与数学方程模型
该研究提出了一种新的主题模型,通过生成数学公式和周围的文本,有效地捕捉了主题与数学之间的关系,可用于主题感知公式生成、公式主题推断和主题感知数学符号与文本的对齐。
- EMNLP使用耦合分布式主题建模在线话语
本研究提出了一种深度、全局归一化的主题模型,该模型考虑了社交生成语料库中文档之间的结构关系,并通过加入观察到的回复链接来捕捉对话交互信息,以及使用深度体系结构排列的潜在分布式表示,以实现基于 GPU 的有效比例推理过程。我们将该模型应用于 - ACL分析时间序列文档集的动态和静态主题模型
本文提出一个动态和静态主题模型,能同时考虑时间上的主题演化和每个时间的主题层级结构,以此来分析结构化的时间序列文档。作者通过实验表明,该方法在科学论文集的主题提取方面优于传统模型,并展示了提取出的主题结构,以此来帮助对研究活动进行分析。
- AAAI使用主题模型的基于知识的词义消歧
本研究使用主题模型的形式设计了一种词义消歧系统,使其在上下文单词数线性增长的情况下扩展,该方法在 5 个英语全单词 WSD 数据集上进行的评估表明,其性能优于这一领域的当前最先进无监督知识为基础的 WSD 系统。
- COLING谁能想到那个!”:一种用于提取讽刺流行主题和探测讽刺的分层主题模型
本研究基于主题模型提出了一种简单的讽刺检测模型,能够预测带有讽刺情感的话题,并且能够发现具有情感的单词组合,通过在推特数据集上进行实验,我们的模型能比之前的基于统计分类器的研究提高 25% 的识别率。
- 引文网络主题模型的文献分析
本文提出了一种将作者、主题和文档结合起来的主题模型,该模型能更好地拟合和聚类研究出版物,同时提出了一种有效的推理算法,可以在 CiteSeerX 的子集中探索研究出版物。
- ICML使用文本和像素突出显示单词的视觉化文本模型
本文探讨了两种使用颜色来理解文本模型的技术,一种方法是使用文字注释来说明模型对特定文档中特定标记的理解,另一种方法是使用高级的 “像素化文字” 图形来展示整个文集。这些方法一起提供了模型对文本理解的缩小和放大的视角。我们展示了这些相互关联的 - ACL无向主题模型的高效学习
本文提供一种新的估算方法,用于加速基于 Noise Contrastive Estimate 的学习,以处理长度和加权输入不同的文档,实验表明该方法在文档检索和分类方面具有高效率和高准确性。
- 文本语料库中的可扩展主题短语挖掘
本文提出一种基于短语挖掘算法的主题模型,该算法能够在保证计算效率的同时,高效地发现论文标题、摘要、评论和新闻文章等多种数据集中的高质量主题短语。
- 面向查询的多文档摘要的基于特征的贝叶斯模型
本文提出了一种新的有监督方法,可以将丰富的句子特征合并到贝叶斯主题模型中,从而充分利用主题模型和基于特征的有监督学习方法进行查询焦点的多文档摘要, TAC2008 和 TAC2009 的实验表明了我们的方法的有效性。
- 基于查询的多文档摘要:将新颖主题模型与基于图的半监督学习相结合
通过引入句子层级和主题层级的图半监督学习方法,以及利用句子和词之间的依赖关系构建主题模型,可以有效改善查询聚焦的多文档摘要的质量。经实验证明,该方法在 DUC 和 TAC 数据集上非常有效。