跨语言新闻 - 跨语言文档相似性与事件追踪
本文提出一种用于分类跨语言新闻的 incorporating clustering 模型,该模型使用跨语言向量表示新闻,使用 LDA 主题模型表示新闻内容,采用 Single-Pass 聚类算法进行优化,并利用知识蒸馏技术,将两个语义空间拟合为一个混合语义空间。
May, 2023
该研究提出了一个能够在多种语言中聚类新闻文章的在线系统,利用多语言上下文嵌入作为文档表示,由线性分类器聚合相似文件,通过在线合并来纠正相关的多语言聚类,并在多语言新闻流聚类数据集上取得了最新的成果。
Apr, 2022
研究称,维基百科不同语言版本中表示实体或主题的文章独立演变,会产生不同观点的反映,需要对信息如何跨越维基百科语言版本进行分析,以支持质量控制。为了便于分析,研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面,可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化,并在特定时间点执行文章快照的详细视觉比较。
Feb, 2017
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方法以确保摘要的正确性。此外,我们提供了 28583 个单语和跨语种的文章 - 摘要对,并在收集的数据上建立和分析了多个基准,并报告了错误分析。
Dec, 2023
提出了一种基于 Topic Detection and Tracking 的新闻处理系统,采用 “replaying” 策略将单语局部主题链接成故事,同时使用 SBERT 进行交叉语言处理,获得了在多个语言数据集上的最新成果。
Apr, 2020
理解新闻文章的写作框架对解决社会问题至关重要,因此引起了通信研究领域的显着关注。我们介绍了一个扩展版的大型标记新闻文章数据集,包含 16,687 个新标记的配对。通过对新闻文章进行成对比较,我们的方法解放了传统新闻框架分析研究中手动识别框架类别的工作。该新闻文章相似性数据集是迄今为止最广泛的跨语言新闻文章数据集,涵盖 10 种语言、26,555 个标记的新闻文章配对。每个数据点根据详细的代码手册进行了细致的注释,采用人在循环框架下进行。应用示例展示了它在揭示全球新闻报道中的国家社群、揭示新闻媒体偏见以及定量化与新闻创作相关因素方面的潜力。我们预计这个新闻相似性数据集将扩宽我们对媒体生态系统的认识,包括对事件和观点在国家、地点、语言和其他社会构建中的新闻报道。通过这样做,它可以推动社会科学研究和应用方法的进步,对我们的社会产生深远影响。
May, 2024
本文介绍一种可通过将文档内容表示为多语言词库的词向量,并测量词向量间的语义相似度以识别大量候选文档中的翻译和其它相似文档等应用,且经测试,该系统可以在超过 820 个文档的大搜索空间中检测到 96% 以上精度的翻译及跨语言文档抄袭。
Sep, 2006
本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法,旨在量化各语言语料库之间的距离和单个语料库的同质性,结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性,并且可以应用于低资源语言和不同的语料库集。
Jun, 2022