多语种流媒体新闻的聚类

EMNLPSep, 2018

Multilingual Clustering of Streaming News

Sebastião Miranda, Artūrs Znotiņš, Shay B. Cohen, Guntis Barzdins

TL;DR该研究提出一种基于多语言文档流聚类的方法，可用于实时新闻监测和处理，并在德语、英语和西班牙语数据集上实现了最优结果。

Abstract

clustering news across languages enables efficient media monitoring by aggregating articles from multilingual sources into coherent stories. Doing so in an online setting allows scalable processing of massive new

clustering multilingual news monitoring online processing real-time

发现论文，激发创造

通过从共享空间投影简化多语言新闻聚类

该研究提出了一个能够在多种语言中聚类新闻文章的在线系统，利用多语言上下文嵌入作为文档表示，由线性分类器聚合相似文件，通过在线合并来纠正相关的多语言聚类，并在多语言新闻流聚类数据集上取得了最新的成果。

Apr, 2022

多语言新闻流的批量聚类

提出了一种基于 Topic Detection and Tracking 的新闻处理系统，采用 “replaying” 策略将单语局部主题链接成故事，同时使用 SBERT 进行交叉语言处理，获得了在多个语言数据集上的最新成果。

Apr, 2020

基于跨语言词向量的多语言新闻聚类研究

本文提出一种用于分类跨语言新闻的 incorporating clustering 模型，该模型使用跨语言向量表示新闻，使用 LDA 主题模型表示新闻内容，采用 Single-Pass 聚类算法进行优化，并利用知识蒸馏技术，将两个语义空间拟合为一个混合语义空间。

May, 2023

跨语言新闻 - 跨语言文档相似性与事件追踪

本研究基于 Event Registry 系统，使用基于 Wikipedia 的不同语言交叉文档相似度计算方法，解决了多语言流的新闻推送跟踪，提出了一种链接不同语言文章聚集的方法，并对整个系统进行了充分评估。

Dec, 2015

基于多尺度图划分的内容驱动非监督式新闻文章聚类

介绍了一种利用自然语言处理和图论工具结合的方法，通过向量表示和多尺度社团检测技术对文本进行分析和分类，得出了一组组具有相似内容的文档，揭示了主题和子主题的类层次结构。

Aug, 2018

多语言语言聚类神经机器翻译

本文提出了一种语言聚类框架，通过使用两种语言聚类的方法（一种是根据语言系族群划分，另一种是使用语言向量嵌入空间进行聚类），将成千上万种语言分成不同的群组，并针对每个群组训练一个多语言神经机器翻译模型，该方法可以有效提高翻译准确度。

Aug, 2019

大型语言模型增强的聚类新闻事件检测

通过结合大型语言模型和聚类分析，利用自动化事件检测框架从全球事件、语言和情感数据库（GDELT）中检测新闻事件，并通过关键词提取、文本嵌入、事件摘要和主题标签等任务加强事件聚类，以提供有价值的洞察力和增强新闻报道的准确性和深度。

Jun, 2024

基于字符级神经网络的 SUMMA 项目跨语言媒体监测翻译

通过使用序列到序列的神经翻译模型的低维语义表示能力，该论文尝试解决自动多语种新闻监测中出现的两个问题：将电视和广播节目 ASR 转录分割成单个故事，对来自各种来源和语言的单个故事进行故事线聚类。为了实现多语种神经翻译的联合多任务学习，论文使用滑动窗口机制替换注意力机制，并在字符级别而非单词级别上操作序列到序列的神经翻译模型处理分割和聚类问题。通过检查作为神经翻译过程副产品产生的低维向量，解决分割故事和故事线聚类问题的方法值得进一步研究。

Apr, 2016

通过可扩展的主题嵌入从连续新闻流中无监督地发现故事

该研究提出了一种基于主题嵌入、动态嵌入和自适应聚类的框架 USTORY 实现了无监督在线故事发现，并在真实新闻数据集上进行了全面评估，结果表明 USTORY 的性能比基线更高，并且具有鲁棒性和可扩展性。

Apr, 2023

使用实体感知的上下文嵌入进行事件驱动新闻流聚类

提出一种基于非参数流式 K 均值算法的在线新闻流聚类方法，使用了稀疏和密集文档表示的组合，采用神经分类器做聚类决策，并将文档 - 聚类相似度聚合在这些多重表示中。使用三元组损失将加权文档 - 聚类相似度模型转化为线性分类目标，同时使用 Transformer 预训练模型和外部知识来微调目的函数，获得了显著的聚类效果提升，该模型在标准英文文档流聚类数据集中实现了新的最优性能。

Jan, 2021