跨语言新闻 - 跨语言文档相似性与事件追踪

Dec, 2015

跨语言新闻 - 跨语言文档相似性与事件追踪

News Across Languages - Cross-Lingual Document Similarity and Event Tracking

Jan Rupnik, Andrej Muhic, Gregor Leban, Primoz Skraba, Blaz Fortuna...

TL;DR本研究基于 Event Registry 系统，使用基于 Wikipedia 的不同语言交叉文档相似度计算方法，解决了多语言流的新闻推送跟踪，提出了一种链接不同语言文章聚集的方法，并对整个系统进行了充分评估。

Abstract

In today's world, we follow news which is distributed globally. Significant events are reported by different sources and in different languages. In this work, we address the problem of tracking of events in a large multilingual stream. Within a recently developed system →

multilingual stream cross-lingual document similarity measures linking collections of articles event registry tracking of events

发现论文，激发创造

基于跨语言词向量的多语言新闻聚类研究

本文提出一种用于分类跨语言新闻的 incorporating clustering 模型，该模型使用跨语言向量表示新闻，使用 LDA 主题模型表示新闻内容，采用 Single-Pass 聚类算法进行优化，并利用知识蒸馏技术，将两个语义空间拟合为一个混合语义空间。

May, 2023

多语种流媒体新闻的聚类

该研究提出一种基于多语言文档流聚类的方法，可用于实时新闻监测和处理，并在德语、英语和西班牙语数据集上实现了最优结果。

Sep, 2018

通过从共享空间投影简化多语言新闻聚类

该研究提出了一个能够在多种语言中聚类新闻文章的在线系统，利用多语言上下文嵌入作为文档表示，由线性分类器聚合相似文件，通过在线合并来纠正相关的多语言聚类，并在多语言新闻流聚类数据集上取得了最新的成果。

Apr, 2022

多语种事件链接至维基数据

本文提出了一项多语种事件链接的任务，构建了包含 440 万触及 440 多种语言的事件数据集，其中两个变体均超过了基线模型。

Apr, 2022

分析跨语种维基百科文章对的时间演变

研究称，维基百科不同语言版本中表示实体或主题的文章独立演变，会产生不同观点的反映，需要对信息如何跨越维基百科语言版本进行分析，以支持质量控制。为了便于分析，研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面，可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化，并在特定时间点执行文章快照的详细视觉比较。

Feb, 2017

跨语言摘要的自动数据检索

英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要，以帮助数据获取。我们通过分析数据并提出方法，将文章与视频描述匹配为文档和摘要对，并提出了过滤方法以确保摘要的正确性。此外，我们提供了 28583 个单语和跨语种的文章 - 摘要对，并在收集的数据上建立和分析了多个基准，并报告了错误分析。

Dec, 2023

多语言新闻流的批量聚类

提出了一种基于 Topic Detection and Tracking 的新闻处理系统，采用 “replaying” 策略将单语局部主题链接成故事，同时使用 SBERT 进行交叉语言处理，获得了在多个语言数据集上的最新成果。

Apr, 2020

新闻文章框架的多语言相似度数据集

理解新闻文章的写作框架对解决社会问题至关重要，因此引起了通信研究领域的显着关注。我们介绍了一个扩展版的大型标记新闻文章数据集，包含 16,687 个新标记的配对。通过对新闻文章进行成对比较，我们的方法解放了传统新闻框架分析研究中手动识别框架类别的工作。该新闻文章相似性数据集是迄今为止最广泛的跨语言新闻文章数据集，涵盖 10 种语言、26,555 个标记的新闻文章配对。每个数据点根据详细的代码手册进行了细致的注释，采用人在循环框架下进行。应用示例展示了它在揭示全球新闻报道中的国家社群、揭示新闻媒体偏见以及定量化与新闻创作相关因素方面的潜力。我们预计这个新闻相似性数据集将扩宽我们对媒体生态系统的认识，包括对事件和观点在国家、地点、语言和其他社会构建中的新闻报道。通过这样做，它可以推动社会科学研究和应用方法的进步，对我们的社会产生深远影响。

May, 2024

大型多语言文档集合中文档翻译的自动识别

本文介绍一种可通过将文档内容表示为多语言词库的词向量，并测量词向量间的语义相似度以识别大量候选文档中的翻译和其它相似文档等应用，且经测试，该系统可以在超过 820 个文档的大搜索空间中检测到 96% 以上精度的翻译及跨语言文档抄袭。

Sep, 2006

跨语言语料库相似度度量方法具有较强的鲁棒性

本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法，旨在量化各语言语料库之间的距离和单个语料库的同质性，结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性，并且可以应用于低资源语言和不同的语料库集。

Jun, 2022