基于播客短文本元数据的主题建模
本文提出了一种名词实体识别系统,旨在识别播客音频中的电影标题。我们实施了一个两阶段的方法,结合模糊匹配和对电影特定元数据敏感的线性模型,来解决计算机转录错误的问题,并且不需要显著的计算开销。在多样化的播客集上进行评估,当结合模糊匹配和线性模型时,在三个基准方法上 F1 分数增加了 20% 以上。
Sep, 2018
本篇论文基于主题模型,利用变分推断的方法,提出了一种通用的神经网络框架,允许灵活地结合元数据,通过迅速探索备选模型等方法,在保证困惑度、连贯性和稀疏性的情况下,取得了强大的性能。此外,通过对美国移民文章语料库的探索,展示了本框架的潜力。
May, 2017
文中介绍了一种使用 Federated NMF 和互信息(MI)的方法,可以在尊重客户数据隐私的同时,帮助多个客户一起训练矩阵分解话题模型,并更好地进行自然语言处理
May, 2022
使用 Spotify Podcast 数据集对 Podcast 的 summarization 进行基础分析,以帮助研究者了解现有的预训练模型并构建更好的模型。
Aug, 2020
本文提出了一种方法来自动生成播客音频摘要,以帮助用户在投入时间聆听整个剧集之前快速预览内容,并使用一个自定义的数据集,并通过音频转文本转换以及文本摘要生成来实现。
Sep, 2020
研究了抽象化摘要的多个不同方面,如重要片段的选择、训练实例数量和质量的平衡,以及合适的摘要长度和起止点,其中从转录中选择重要部分作为输入是有优势的。同时使用神经网络建立的系统的最佳结果比创作者描述的有一个绝对提高达到了 0.268 (+21%) 的 NIST 评级的质量。
Nov, 2020
该论文从理论上证明了利用非负矩阵分解(NMF)作为主要工具来实现主题模型学习算法的可行性,具有学习效率高,不需要数据满足某些限制条件等优点,可用于包含主题 - 主题相关性的模型。
Apr, 2012
该研究介绍了用于 TREC 2020 播客摘要挑战的方法。该方法采用了两个步骤:过滤摘要中的冗余或信息较少的句子,然后应用基于 BART 的文本摘要系统。最好的结果在人类评估中达到了 1.777 的得分。
Dec, 2020
我们提出了一种基于聚类的主题建模方法,使用概念实体作为语言无关的表示,并使用图神经网络从百科全书语料库和知识库中提取实体的向量表示,该方法在连贯性度量方面始终优于其他主题模型。
Jan, 2023
本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统,以帮助用户针对具体目标进行大规模文档检索,包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。
Jul, 2019