本体论中的多语言现象及其意义综述
本文提出了一个方法,用于在不同语言的 Infoboxes 之间识别属性映射,该方法具有可扩展性和适用性广泛性,它能够通过 Wikipedia 的多语言资源和跨语言结构支持 Wikipedia 内容的结构化查询,并提高了查询结果的质量和覆盖范围。
Oct, 2011
此论文旨在研究多模态多语言的统一模型,探讨其任务,数据集及方法类别,分析模态与语言之间的相互作用以及模型的优势和劣势,总结该领域的高级趋势并提出挑战和未来研究方向。
Oct, 2022
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
现代自然语言处理的突破包括能够在 100 多种语言中执行任务的大型多语种模型。最先进的语言模型从简单的独热编码词表示开始,能够执行自然语言理解、常识推理或问答等任务,从而捕捉文本的语法和语义。同时,语言模型正在超越我们所知的语言界限,甚至在资源非常有限的濒危语言的方言中获得有竞争力的表现。然而,仍然存在一些问题,需要解决,以确保通过统一的建模空间在语言和说话者之间获得公正的文本表示。在本调研中,我们阐述了多语种文本表示的迭代进展,并讨论了最终导致当前最先进技术的推动因素。随后,我们讨论了如何实现语言民主化的全部潜力,突破所知的限制,并探讨在该领域的改进范围。
Sep, 2023
该论文旨在研究和探索使用任务和语言之间的相关性来构建需要较少手动注释数据的自然语言处理模型,通过研究 60 种语言的多种 NLP 任务,该论文表明了联合多任务和多语言建模的潜力,并暗示从这些模型中可以获得语言学洞见。
Sep, 2018
在多语言词汇数据库中,主要的世界语言表达不完整,数据结构的限制导致文化特定单词的表达能力降低,尤其是英语这样的主导语言以更准确的方式表示词汇意义空间,而语言或文化多样性的语言以近似的方式映射。本文评估了最先进的多语言词汇数据库,并评估其在语言多样性的词汇现象上的表达能力的优点和局限性。
Jan, 2023
本文介绍了一种比较多语言计算表示相互关系的方法,可以重建语言学家所假定的类似的分类树,同时提出了一种检测语言家族之间语义漂移的度量,并使用基于单词和句子的多语言模型进行了实验,结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。
Apr, 2019
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中,从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试,从而增强了数据集的可用性和相关性,该数据集称为 QALD-9-Plus,将提供在线支持。
Jan, 2022