QICHWABASE: 为母语为凯楚亚语的社区构建的凯楚亚语言和知识库
本研究通过构建 Quechua 知识图谱提升了 Quechua 语言和知识的可访问性、可检索性和利用性,目前 Quechua 知识图谱存储了 553636 个三元组,可用于研究和技术开发,并提出了应用实例和未来工作。
Aug, 2022
我们通过爬取广泛的语音语料库并应用数据增强方法,为五种土著语言(Quechua、Guarani、Bribri、Kotiria 和 Wa'ikhana)提供了可靠的自动语音识别(ASR)模型,其中包括 Wav2vec2.0 XLS-R 模型的不同变体
Apr, 2024
通过将高质量问题的翻译引入到最受欢迎的 KGQA 基准测试之一 QALD-9 中,从 DBpedia 到 Wikidata 的迁移和添加 8 种语言的支持来扩展 QALD-9 基准测试,从而增强了数据集的可用性和相关性,该数据集称为 QALD-9-Plus,将提供在线支持。
Jan, 2022
本文提出了一种基于 SPARQL 查询的多语言语义 Web 知识库问答(QA)方法,能够查询多个知识库,可轻松移植到其他知识库和语言。通过对五个不同的知识库和五种语言的评估,证明了该方法的影响。
Mar, 2018
Killkan 是第一个专注于 Kichwa 语(厄瓜多尔的一种土著语言)的自动语音识别(ASR)数据集,包含约 4 小时的音频及转录、西班牙语翻译和形态句法注释等信息,旨在为这种极度资源匮乏和濒危的语言提供自然语言处理应用的资源建设。本研究还通过基于语料库的分析,特别关注 Kichwa 语的合成构词和与西班牙语的频繁语码混用,实验证明即使数据集规模较小,也能实现可靠质量的 Kichwa 语 ASR 系统的开发。该数据集、ASR 模型和开发所使用的代码将公开提供,积极展示了对资源建设及其在资源匮乏语言及其社区中的应用。
Apr, 2024
该研究对多语言信息处理领域中的跨语言问答问题进行了研究:提出了一种基于阅读理解范式的知识库子图到问题的转换方法,利用汽车预训练语言模型和跨语言阅读理解技术进行跨语言阅读理解,基于现有的高质量跨语言阅读理解数据集进一步优化模型,为跨语言问答领域提供了一种有效、高效的方法。
Feb, 2023
研究通过对维基百科论坛讨论和对 14 个新手贡献者进行的环境调查,发现在低资源语言贡献者中存在一些问题,如在低资源语言中验证文章的资源匮乏以及语言技术支持(如翻译系统和拼写检查)导致多个错误从而浪费贡献者的时间。希望该研究能够支持设计师使在线知识库对低资源语言使用者更加可访问。
May, 2024
本研究探讨语言对用户生成内容的碎片化影响,通过检查 25 种不同的维基百科语言版本中的知识表示多样性。研究发现维基百科的语言多样性大于先前研究的预测,并对利用维基百科作为世界知识来源的应用程序产生重要影响。最后阐述了如何利用这种知识多样性创造 “文化意识应用” 和 “超语言应用程序”。
Apr, 2019
介绍了关于开发与使用低资源语种有意义资源的立场,并分析了两个多语种资源的内容、质量以及注重使用该语种的用户开发这些资源的伦理问题,并提出了资源开发的指导方针。
Feb, 2022
本文比较了六个知识库问答系统在八个基准数据集上的表现,研究了各种问题类型、属性、语言和领域,提出了一个高级的映射算法来帮助现有模型取得更好的结果,并开发了一个 COVID-KGQA 的多语言语料库来鼓励 COVID-19 研究和多语言多样性的未来 AI,此外还讨论了主要发现及其影响、性能指南和一些未来改进。
Nov, 2022