本体论中的多语言现象及其意义综述

Oct, 2022

本体论中的多语言现象及其意义综述

A Review of Multilingualism in and for Ontologies

PDF

Frances Gillis-Webber, C. Maria Keet

TL;DR本文回顾了多语义 Web 中的语言多样性建模选项，通过对 9 种主要方法进行比较，从 BioPortal 和 LOV 存储库中提取了可访问的本体，并评估了 7 个相关本体编辑器对于管理多语言本体的工具支持。

Abstract

The multilingual semantic web has been in focus for over a decade. multilingualism in linked data and →

multilingual semantic web linked data rdf ontologies multilingualism

发现论文，激发创造

维基百科信息框的多语言模式匹配

本文提出了一个方法，用于在不同语言的 Infoboxes 之间识别属性映射，该方法具有可扩展性和适用性广泛性，它能够通过 Wikipedia 的多语言资源和跨语言结构支持 Wikipedia 内容的结构化查询，并提高了查询结果的质量和覆盖范围。

Oct, 2011

多语言维基百科研究的考虑因素

本文详细介绍了不同语言版本的维基百科之间存在的差异，并提出了如何使用多语言和多模态数据进行研究和建模的建议。

Apr, 2022

多语言多模态：数据集、技术、挑战和机遇的分类调查

此论文旨在研究多模态多语言的统一模型，探讨其任务，数据集及方法类别，分析模态与语言之间的相互作用以及模型的优势和劣势，总结该领域的高级趋势并提出挑战和未来研究方向。

Oct, 2022

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020

多语言文本表示

现代自然语言处理的突破包括能够在 100 多种语言中执行任务的大型多语种模型。最先进的语言模型从简单的独热编码词表示开始，能够执行自然语言理解、常识推理或问答等任务，从而捕捉文本的语法和语义。同时，语言模型正在超越我们所知的语言界限，甚至在资源非常有限的濒危语言的方言中获得有竞争力的表现。然而，仍然存在一些问题，需要解决，以确保通过统一的建模空间在语言和说话者之间获得公正的文本表示。在本调研中，我们阐述了多语种文本表示的迭代进展，并讨论了最终导致当前最先进技术的推动因素。随后，我们讨论了如何实现语言民主化的全部潜力，突破所知的限制，并探讨在该领域的改进范围。

Sep, 2023

多任务和多语言模型用于词法分析

该论文旨在研究和探索使用任务和语言之间的相关性来构建需要较少手动注释数据的自然语言处理模型，通过研究 60 种语言的多种 NLP 任务，该论文表明了联合多任务和多语言建模的潜力，并暗示从这些模型中可以获得语言学洞见。

Sep, 2018

在词汇数据库中表示跨语言意义

在多语言词汇数据库中，主要的世界语言表达不完整，数据结构的限制导致文化特定单词的表达能力降低，尤其是英语这样的主导语言以更准确的方式表示词汇意义空间，而语言或文化多样性的语言以近似的方式映射。本文评估了最先进的多语言词汇数据库，并评估其在语言多样性的词汇现象上的表达能力的优点和局限性。

Jan, 2023

多语言表征中的语义漂移

本文介绍了一种比较多语言计算表示相互关系的方法，可以重建语言学家所假定的类似的分类树，同时提出了一种检测语言家族之间语义漂移的度量，并使用基于单词和句子的多语言模型进行了实验，结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。

Apr, 2019

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

QALD-9-plus: 面向 DBpedia 和 Wikidata 的多语言问题回答数据集（由本地说话人翻译）

通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中，从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试，从而增强了数据集的可用性和相关性，该数据集称为 QALD-9-Plus，将提供在线支持。

Jan, 2022