本研究实现了 Apple 公司在博客中简短介绍的语言识别架构,发现 bi-LSTM 模型在识别语言方面的表现更优,但在相关语言之间容易混淆。该技术可用于自动拼写检查和对短文本信息进行语种识别。
Feb, 2021
文章介绍了语言识别的概念及其历史,对现有的特征和方法进行了调查和评估,讨论了评估方法、应用和开放问题,并提出了未来的研究方向。
Apr, 2018
本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展,我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法,并通过使用平行语料库证实了其有效性和通用性。
Sep, 2016
本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块,成功实现了对混合代码数据的单词级别的语言识别,准确率高达 93.28%和 93.32%。
Aug, 2018
通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型,我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题,可用于短文本的语言识别和印度或非洲语言之间的研究。
May, 2023
该研究论文研究了语言识别的问题,使用了基于注意力机制和神经网络的方法,使用频谱图像作为输入以及原始波形作为特征,对六种语言进行了分类,获得了高精度的结果。
Oct, 2019
本研究构建并训练了一种基于自动语音识别技术的语言识别系统,可自动识别阿拉伯语、西班牙语、法语和土耳其语,并通过投票方式进行预测,准确率很高。
May, 2022
使用 LLMs(如 GPT-4)进行原生语言识别(NLI)的实验结果表明,GPT 模型在 NLI 分类上表现出色,在零样本设置下取得了 91.7%的性能记录。与以往的完全监督设置不同,LLMs 可以在无需限制于已知类别的情况下执行 NLI,这在实际应用中具有实际意义。此外,LLMs 还能提供选择的理由,根据拼写错误、句法模式和直接翻译的语言模式进行推理。
Dec, 2023
本文提出了一种改进的循环神经网络转录模型,通过集成一个帧级语言识别器预测器实现语言识别,以实现流式语音识别,通过流式实现统计汇聚,降低测试时成本,在语音搜索数据集上进行实验,平均命中率达到 96.2%。
Sep, 2022
本文提出了一个迁移学习方法,使用少量手动标注的数据从历史文本领域进行有标注的迁移学习,通过基于距离的少量样本学习来适应新的历史文本数据分布,从而识别未标注历史文本数据中的语言,展示了其在 10 种主要使用拉丁字母的语言历史文本领域中成功的性能。