- ACL通用脚本语言识别
我们提出使用多种实验策略(放大、扁平化和混合脚本)来学习与脚本无关的表示,重点关注四种主要的德拉维达语言(泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语),发现在下游的不以脚本为依据的语言识别中,词级脚本随机化和暴露于多个脚本书写的语言对于维持 - 使用编码器提示进行多语言端到端语音识别的快速语言适应
通过引入自我条件 CTC 框架中的编码器提示技术,我们实现了 CTC 模型的语言特定适应,从而实现了多语言语音识别的端到端处理,并取得了平均错误率下降 28% 和低资源语言下降 41% 的显著效果。
- FastSpell:LangId 魔法拼写
本文介绍了 FastSpell,这是一种语言识别工具,它结合了 fastText 和 Hunspell,并提供了细化的第二意见,以便在决定将哪种语言分配给一段文本之前使用。我们描述了 FastSpell 算法的工作原理和配置方法,并在开发 - 地理信息辅助语种识别
通过结合地理信息,本研究开发了一种语言识别方法,形成了 16 个区域模型,覆盖 916 种语言,模型性能得到改善。
- 验证和探索大规模地理文集
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库,使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量:(i) 独立语言识别系统的一致性,(i - ACL代码切换语言识别更加困难
通过建立代码切换语料库的应用,我们研究了代码切换语言识别,考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题,以使其更易处理,并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够,并在 - 俄语和英语元音声音参数的比较
在多语种语音识别系统中,当语言事先未知但信号已接收并进行处理时,需要使用广义模型来对语音进行识别,根据语音差异来判断所需语言,为此需要设置语音参数值并比较相似声音以确定重要差异。
- 语音韵律的声学表征:利用递归神经网络超越度量
通过深度学习,我们在大量语音记录的数据库上训练了一个中型递归神经网络,用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言,并且在三分之二的情况下将语言排在前三名。可视化方法显示,从网络激活中构建的表示与语音节 - 利用语言识别计算中间 CTC 损失以增强代码交替语音识别
通过在自动语音识别模型的编码器的中间层引入语言识别信息,本文旨在以更加隐式的方式生成暗示语言区别的声学特征,降低模型在处理语言切换时的混淆。
- 模块化多语言语言模型的隐晦限制
我们揭示了模块化多语种语言模型 (MLMs) 在未知语言的多语种推理场景中的局限性。现有模块化 MLMs 的评估排除了语言识别 (LID) 模块的参与,这使模块化 MLMs 在实际多语种场景下的性能变得模糊。在这项工作中,我们展示了添加 L - 混乱中的巴别塔:对 ChatGPT 的语言识别能力的调查
最近,ChatGPT 作为一种强大的 NLP 工具出现了,它可以执行多项任务。然而,ChatGPT 可以处理的语言范围仍然是个谜。本文研究了 ChatGPT 的语言识别能力,为此我们编制了 Babel-670,其中包括 670 种代表 23 - EMNLPGlotLID: 低资源语言的语种识别
GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型,通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战,希望将其整合到数据集创建过程中,提高低资源语言与文化的 NLP 技 - 2023 ML-SUPERB 挑战赛的发现:跨更多语言和领域的预训练和评估
2023 年多语言演讲通用性能基准(ML-SUPERB)挑战扩展了备受赞誉的 SUPERB 框架,强调自监督模型在多语音识别和语言识别中的应用。挑战包括一个研究轨道,重点是将 ML-SUPERB 应用于特定的多语言主题,一个挑战轨道,用于模 - 2023 年 IberLEF GUA-SPA 概述:瓜拉尼 - 西班牙语代码交换分析
GUA-SPA 是 IberLEF 2023 的第一个共享任务,通过标注一份从新闻文章和推文中提取的 1500 个文本的语言切换信息,涵盖 25,000 个标记,任务涉及令牌语言识别、命名实体识别和在混合语境中划分西班牙文范围的新任务。参与 - 利用单语数据源训练双语和混码语音识别模型
本文介绍了一种新的聚合分词器方法,用于训练双语和混合语音自动语音识别模型,从而消除了获得语料库的限制,并演示了这种方法的有效性。
- 基于多任务预训练和迁移学习的简单而有效的语言代码切换识别
本文研究如何使用深度学习方法提高混合语言识别的准确性,提出了包括使用 Residual CNN+GRU 模型,以及使用自动语音识别(ASR)作为辅助任务的多任务预训练方法等两种有效方法,并且通过使用单语语料库以及数据上采样等方法来创造真正的 - 探究语言识别模型的性能:超越简单的错误统计
研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现,考察其对录音和语音单元的性能,并且提出评估指标的局限性和可能导致算法偏差的问题。
- Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别
我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别(LID)数据集和模型,并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。
- 350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用
通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型,我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题,可用于短文本的语言识别和印度或非洲语言之间的研究。
- ACL语言识别的开放数据集和模型
该研究提出了一种基于单语数据训练的语言识别模型,其在 201 种语言上的宏平均 F1 得分为 0.93,而误报率为 0.033,将先前工作的表现远远超过。我们对数据集进行了精心筛选,通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和