低资源语言中的人工智能素养:从创作尤鲁巴语视频中获得的见解
用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验,结果表明,标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异,在方言自适应微调的情况下,能够缩小这一差距,该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。
Jun, 2024
该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展,指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下,作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路,从而提升非洲语言的自然语言技术水平。
Apr, 2020
Naija 是尼日利亚的一种混合语言,通过统计分析和机器翻译实验,证明 Naija 在 BBC 和 Wikipedia 体裁中存在语言差异,而生成型人工智能只基于 BBC 体裁的 Naija,无法代表 Wikipedia 体裁中的 Naija。
Apr, 2024
本文提出了 AI 素养的理论框架并提出了一种多层次能力模型,它可作为 AI 教育的实用工具,需要一些基于能力的测评,还提出了一个 AI 素养研究的路线图。
Aug, 2021
通过对 68 个 YouTube 视频的定性分析,我们的研究重点关注生成型人工智能在用户生成内容环境中所应用的内容领域、使用的各种工具、执行的活动以及生成的最终产品的性质。
Mar, 2024
本文介绍了一项针对低资源语言的研究,使用 Sparsely Gated Mixture of Experts 模型结合新的数据挖掘技术进行训练,从而实现了机器翻译中对于低资源语言的支持并提高了 BLEU 值。
Jul, 2022
本研究针对低资源语言建设有效的口语处理系统提出了一个跨语言自适应训练框架,包括持续和任务自适应训练,以适应基于预训练模型的自然语言处理任务,采用英语预训练语言模型作为英语 - Pidgin 任务的强先验,取得了最高 2.38 的 BLEU 分数,加入正字法数据增强和反向翻译的任务自适应训练对模型性能有显著影响。
Jul, 2023
生成式 AI 为语言学习提供了重要机会。AI 工具如 ChatGPT 可以通过书面或语音聊天提供非正式的第二语言练习,学习者可以通过提示指定对话参数,如熟练水平、语言风格和讨论主题。AI 可以被指导给出修正性反馈、创建练习题或制定扩展学习计划。AI 可以帮助教师构建各种媒体的学习和评估材料。然而,学习者和教师都需要理解 AI 系统的局限性,这些局限性源于它们对人类语言的纯统计模型,从而限制了它们处理语言使用中微妙的社会和文化方面的能力。此外,AI 系统的创建涉及道德问题,并且在使用中存在实际限制,尤其是对于弱势群体。AI 工具的能力和多功能性很可能使它们成为许多人生活中宝贵而常用的伴侣(类似于智能手机),创造出一种超越简单工具使用的紧密联系。生态理论如社会物质主义对于研究用户和 AI 之间产生的共同行动机制非常有帮助,以及来自原住文化的人 - 物关系视角。
Mar, 2024
通过对噪音广播档案的无监督的语音表示学习方法进行调查,我们的贡献包括发布两个数据集到研究社区以及共享受过训练的语音编码器,最终分享了 Maninka、Pular 和 Susu 等语言的首个语音识别模型,为服务于数字鸿沟中穷困落后的人群而提供了一种道路。
Apr, 2021