language identification | BriefGPT

关键词language identification

搜索结果 - 64

ACL通用脚本语言识别
我们提出使用多种实验策略（放大、扁平化和混合脚本）来学习与脚本无关的表示，重点关注四种主要的德拉维达语言（泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语），发现在下游的不以脚本为依据的语言识别中，词级脚本随机化和暴露于多个脚本书写的语言对于维持
PDF7 days ago
使用编码器提示进行多语言端到端语音识别的快速语言适应
通过引入自我条件 CTC 框架中的编码器提示技术，我们实现了 CTC 模型的语言特定适应，从而实现了多语言语音识别的端到端处理，并取得了平均错误率下降 28% 和低资源语言下降 41% 的显著效果。
PDF14 days ago
FastSpell：LangId 魔法拼写
本文介绍了 FastSpell，这是一种语言识别工具，它结合了 fastText 和 Hunspell，并提供了细化的第二意见，以便在决定将哪种语言分配给一段文本之前使用。我们描述了 FastSpell 算法的工作原理和配置方法，并在开发
PDF3 months ago
地理信息辅助语种识别
通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。
PDF4 months ago
验证和探索大规模地理文集
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(i
PDF4 months ago
ACL代码切换语言识别更加困难
通过建立代码切换语料库的应用，我们研究了代码切换语言识别，考虑到多种语言和较简单的模型架构以实现更快速推理。我们将任务重新定义为句子级多标签标注问题，以使其更易处理，并提出反映所需性能的度量指标。我们通过实证实现表明当前的方法都不足够，并在
PDF5 months ago
俄语和英语元音声音参数的比较
在多语种语音识别系统中，当语言事先未知但信号已接收并进行处理时，需要使用广义模型来对语音进行识别，根据语音差异来判断所需语言，为此需要设置语音参数值并比较相似声音以确定重要差异。
PDF5 months ago
语音韵律的声学表征：利用递归神经网络超越度量
通过深度学习，我们在大量语音记录的数据库上训练了一个中型递归神经网络，用于语言识别任务。网络能够在 40% 的情况下正确识别出 10 秒的语音记录的语言，并且在三分之二的情况下将语言排在前三名。可视化方法显示，从网络激活中构建的表示与语音节
PDF5 months ago
利用语言识别计算中间 CTC 损失以增强代码交替语音识别
通过在自动语音识别模型的编码器的中间层引入语言识别信息，本文旨在以更加隐式的方式生成暗示语言区别的声学特征，降低模型在处理语言切换时的混淆。
PDF7 months ago
模块化多语言语言模型的隐晦限制
我们揭示了模块化多语种语言模型 (MLMs) 在未知语言的多语种推理场景中的局限性。现有模块化 MLMs 的评估排除了语言识别 (LID) 模块的参与，这使模块化 MLMs 在实际多语种场景下的性能变得模糊。在这项工作中，我们展示了添加 L
PDF7 months ago
混乱中的巴别塔：对 ChatGPT 的语言识别能力的调查
最近，ChatGPT 作为一种强大的 NLP 工具出现了，它可以执行多项任务。然而，ChatGPT 可以处理的语言范围仍然是个谜。本文研究了 ChatGPT 的语言识别能力，为此我们编制了 Babel-670，其中包括 670 种代表 23
PDF8 months ago
EMNLPGlotLID: 低资源语言的语种识别
GlotLID-M 是一种具备广泛覆盖、可靠高效、用于辨识低资源语言的 LID 模型，通过分析语料元数据问题、高资源语言泄漏、近似语言辨别困难、处理大语种与方言等方面的挑战，希望将其整合到数据集创建过程中，提高低资源语言与文化的 NLP 技
PDF8 months ago
2023 ML-SUPERB 挑战赛的发现：跨更多语言和领域的预训练和评估
2023 年多语言演讲通用性能基准（ML-SUPERB）挑战扩展了备受赞誉的 SUPERB 框架，强调自监督模型在多语音识别和语言识别中的应用。挑战包括一个研究轨道，重点是将 ML-SUPERB 应用于特定的多语言主题，一个挑战轨道，用于模
PDF9 months ago
2023 年 IberLEF GUA-SPA 概述：瓜拉尼 - 西班牙语代码交换分析
GUA-SPA 是 IberLEF 2023 的第一个共享任务，通过标注一份从新闻文章和推文中提取的 1500 个文本的语言切换信息，涵盖 25,000 个标记，任务涉及令牌语言识别、命名实体识别和在混合语境中划分西班牙文范围的新任务。参与
PDF10 months ago
利用单语数据源训练双语和混码语音识别模型
本文介绍了一种新的聚合分词器方法，用于训练双语和混合语音自动语音识别模型，从而消除了获得语料库的限制，并演示了这种方法的有效性。
PDFa year ago
基于多任务预训练和迁移学习的简单而有效的语言代码切换识别
本文研究如何使用深度学习方法提高混合语言识别的准确性，提出了包括使用 Residual CNN+GRU 模型，以及使用自动语音识别（ASR）作为辅助任务的多任务预训练方法等两种有效方法，并且通过使用单语语料库以及数据上采样等方法来创造真正的
PDFa year ago
探究语言识别模型的性能：超越简单的错误统计
研究语言识别系统在 MERLIon CCS 挑战中对不同语言特性的子集的表现，考察其对录音和语音单元的性能，并且提出评估指标的局限性和可能导致算法偏差的问题。
PDFa year ago
Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别
我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别（LID）数据集和模型，并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。
PDFa year ago
350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用
通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型，我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题，可用于短文本的语言识别和印度或非洲语言之间的研究。
PDFa year ago
ACL语言识别的开放数据集和模型
该研究提出了一种基于单语数据训练的语言识别模型，其在 201 种语言上的宏平均 F1 得分为 0.93，而误报率为 0.033，将先前工作的表现远远超过。我们对数据集进行了精心筛选，通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和
PDFa year ago