基于播客短文本元数据的主题建模

Jan, 2022

基于播客短文本元数据的主题建模

Topic Modeling on Podcast Short-Text Metadata

Francisco B. Valero, Marion Baranes, Elena V. Epure

TL;DR本文研究了使用主题模型技术和命名实体来发现具有相关主题的播客。实验表明，使用我们提出的文档表示方法 NEiCE，可以提高主题的一致性，我们发布了实验代码以复现结果。

Abstract

podcasts have emerged as a massively consumed online content, notably due to wider accessibility of production means and scaled distribution through large streaming platforms. Categorization systems and information access technologies typically use topics as the primary way to organize

podcasts topic modeling named entities nmf metadata

发现论文，激发创造

在播客中识别电影实体

本文提出了一种名词实体识别系统，旨在识别播客音频中的电影标题。我们实施了一个两阶段的方法，结合模糊匹配和对电影特定元数据敏感的线性模型，来解决计算机转录错误的问题，并且不需要显著的计算开销。在多样化的播客集上进行评估，当结合模糊匹配和线性模型时，在三个基准方法上 F1 分数增加了 20% 以上。

Sep, 2018

带元数据的神经模型文档

本篇论文基于主题模型，利用变分推断的方法，提出了一种通用的神经网络框架，允许灵活地结合元数据，通过迅速探索备选模型等方法，在保证困惑度、连贯性和稀疏性的情况下，取得了强大的性能。此外，通过对美国移民文章语料库的探索，展示了本框架的潜力。

May, 2017

基于互信息的短文本主题建模的联邦非负矩阵分解

文中介绍了一种使用 Federated NMF 和互信息（MI）的方法，可以在尊重客户数据隐私的同时，帮助多个客户一起训练矩阵分解话题模型，并更好地进行自然语言处理

May, 2022

播客抽象摘要的基准分析

使用 Spotify Podcast 数据集对 Podcast 的 summarization 进行基础分析，以帮助研究者了解现有的预训练模型并构建更好的模型。

Aug, 2020

PodSumm -- 播客音频摘要

本文提出了一种方法来自动生成播客音频摘要，以帮助用户在投入时间聆听整个剧集之前快速预览内容，并使用一个自定义的数据集，并通过音频转文本转换以及文本摘要生成来实现。

Sep, 2020

开放领域播客剪辑自动化

研究了抽象化摘要的多个不同方面，如重要片段的选择、训练实例数量和质量的平衡，以及合适的摘要长度和起止点，其中从转录中选择重要部分作为输入是有优势的。同时使用神经网络建立的系统的最佳结果比创作者描述的有一个绝对提高达到了 0.268 (+21%) 的 NIST 评级的质量。

Nov, 2020

学习主题模型 —— 走出奇异值分解

该论文从理论上证明了利用非负矩阵分解（NMF）作为主要工具来实现主题模型学习算法的可行性，具有学习效率高，不需要数据满足某些限制条件等优点，可用于包含主题 - 主题相关性的模型。

Apr, 2012

TREC 2020 播客摘要赛道的 CUED 语音

该研究介绍了用于 TREC 2020 播客摘要挑战的方法。该方法采用了两个步骤：过滤摘要中的冗余或信息较少的句子，然后应用基于 BART 的文本摘要系统。最好的结果在人类评估中达到了 1.777 的得分。

Dec, 2020

话题作为实体聚类：基于语言模型和图神经网络的基于实体的话题

我们提出了一种基于聚类的主题建模方法，使用概念实体作为语言无关的表示，并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示，该方法在连贯性度量方面始终优于其他主题模型。

Jan, 2023

TopicSifter：通过有针对性的主题建模交互式减少搜索空间

本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统，以帮助用户针对具体目标进行大规模文档检索，包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。

Jul, 2019