维基百科信息框的多语言模式匹配
本文回顾了多语义 Web 中的语言多样性建模选项,通过对 9 种主要方法进行比较,从 BioPortal 和 LOV 存储库中提取了可访问的本体,并评估了 7 个相关本体编辑器对于管理多语言本体的工具支持。
Oct, 2022
本研究探讨使用单词和句子对齐技术以及匹配算法来对来自特定多个语言的 Wikidata 实体标签进行对齐,并展示使用该技术能显着提高信息一致性的 F1 得分,尤其是使用句子嵌入技术的方法,这将可以用于机器翻译等领域。
Jun, 2022
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本文提出了一种自动化生成和扩展字典和短语表的方法,利用大规模单语数据学习语言结构和小型双语数据映射语言空间之间的线性映射,从而实现翻译缺失的单词和短语,能达到英语和西班牙语之间近 90% 准确率,可用于扩展和完善任何语言对的字典和翻译表。
Sep, 2013
信息同步的挑战在于跨语言的半结构化数据同步,我们提出了一个新的数据集 InfoSyncC 和一个两步骤的表格同步方法来解决这个问题。该方法包括信息对齐以映射行和信息更新以更新多语言表格中对齐表格的缺失 / 过时信息。在 InfoSync 上的评估结果显示,信息对齐达到了 87.91 的 F1 分数(en<->non-en)。通过人工协助的维基百科编辑,信息更新方法在维基百科上达到了 77.28% 的有效性。
Jul, 2023
自然语言处理和计算机视觉领域中近期的研究一直在利用知识图谱中可用的文本信息,例如实体名称和描述,来将神经模型与高质量的结构化数据对接。然而,在非英语语言中,可用的文本信息的数量和质量相对较少。为了解决这个问题,我们提出了自动知识图谱增强(KGE)的新任务,并对英语和非英语语言之间的文本信息的数量和质量差异进行了深入研究。作为对增加多语言覆盖率和实体名称、描述精确度的问题的研究,我们呈现了 M-NTA,一种新的无监督方法,结合了机器翻译(MT),网络搜索(WS)和大型语言模型(LLMs)以生成高质量的文本信息,并研究了增加非英语文本信息的多语言覆盖率和精确度对实体链接、知识图谱补全和问题回答的影响。作为我们朝着更好的多语种知识图谱的努力的一部分,我们还介绍了 WikiKGE-10,第一个跨 7 个语系评估 10 种语言中的 KGE 方法的人工策划的基准。
Nov, 2023
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
研究称,维基百科不同语言版本中表示实体或主题的文章独立演变,会产生不同观点的反映,需要对信息如何跨越维基百科语言版本进行分析,以支持质量控制。为了便于分析,研究者提出了一个名为 MultiWiki 的新型基于 Web 的用户界面,可以在时间轴上提供从不同语言版本来源的文章对中相似性和差异的概观。这使得用户能够观察跨语言文章相似性随时间的变化,并在特定时间点执行文章快照的详细视觉比较。
Feb, 2017