- ACLApple 双向 LSTM 模型在短字符串语言识别中的复现
本研究实现了 Apple 公司在博客中简短介绍的语言识别架构,发现 bi-LSTM 模型在识别语言方面的表现更优,但在相关语言之间容易混淆。该技术可用于自动拼写检查和对短文本信息进行语种识别。
- 探索 wav2vec 2.0 在说话人验证和语言识别上的应用
本文提出了一种基于 self-supervised 的 Wav2vec 2.0 框架,可用于说话人验证和语言识别,通过多任务学习使用一个模型进行统一建模,并在相关数据集上取得了良好的成果。
- COLING野外语言识别:通往千语言网络文本语料库的挑战
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法, - ACLSTIL -- 使用 mBART 在 MultiATIS ++ 上进行同时槽填充、翻译、意图分类和语言识别的初始结果
通过将同时槽填充和翻译成单个输出语言(在本例中为英语),可以减少下游系统组件的一部分的单语性,从而降低开发和维护成本。在使用 MultiATIS ++ 数据集对 7 种语言进行微调的多语言 BART 模型(Liu 等人,2020)的结果表明 - ACLGLUECoS : 用于代码交替自然语言处理的评估基准
在一个名为,GLUECoS, 的评估基准中,使用多语境上下文嵌入模型进行评估,评估基准包括领域从文本中识别、POS 标记、命名实体识别、情感分析、问答和一项新的代码交换任务的多个自然语言处理任务。我们使用跨语言和多语言模型在所有这些任务上展 - EMNLP预训练多语言表示的语言中立性
本文研究了多语种上下文嵌入的语言中性和词汇语义,提出了两种实现更强语言中性的方法,并展示了在不使用平行数据的情况下如何达到语言识别的最新准确率以及匹配平行句子的词对齐统计方法的性能。
- 映射语言:全球语言使用语料库
本文描述了一个基于互联网语言使用的语料库,重点介绍如何利用这个语料库进行数据驱动的语言映射;通过提供有关全球语言使用的信息来支持本地化语种,并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。
- 使用 ConvNets 进行口语语言识别
该研究论文研究了语言识别的问题,使用了基于注意力机制和神经网络的方法,使用频谱图像作为输入以及原始波形作为特征,对六种语言进行了分类,获得了高精度的结果。
- 代码交替数据中语言识别第二次共享任务概览
本研究概述了关于在混合数据中进行语言鉴别第二次分享式任务的总结。我们发现,多种语言之间的语言鉴别比较困难;今年的系统整体表现优于上一个共享任务的系统,这表明该领域的技术正在不断进步。
- 基于深度学习的音频信号频谱图的多类语言识别
本文介绍了一种使用卷积神经网络来进行语言识别的技术,即语音频谱的语言识别(LIFAS),它利用由音频信号产生的频谱图作为输入,对语言进行分类识别,达到了 97 删格的二进制语言分类精度和 89% 的六种语言的多类分类精度。
- ACL基于子词的语言识别技术用于单词内的语码转换
本文将语种识别任务推广到子词级别,研究如何识别包含两种以上语言的语素(intra-word CS),提出了一种基于分段循环神经网络的模型,并在西班牙 - 韦萨里卡数据集和德国 - 土耳其数据集的实验中,相较于基准方法有略微提升或相当的表现。
- 适应语言模型的文本语言和方言识别
本文介绍了一种无监督的语言模型适应方法,可以用来增强语言识别方法的性能。该方法应用于现有版本的 HeLI 语言识别方法,并在德语方言识别和 Indo-Aryan 语言识别共享任务中得到了高于先前 HeLI 方法和其他参与共享任务的系统的 F - 楔形文字的语言和方言识别
本文介绍了一种楔形文字语言识别(CLI)数据集,并通过这个数据集进行了一些初步的语言识别实验。同时,提供了基线实验结果。据我们所知,这里详细介绍的实验是首次在楔形文字数据上使用自动语言识别方法。
- EMNLP使用多通道神经网络和上下文捕捉进行代码混合数据的语言识别
本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块,成功实现了对混合代码数据的单词级别的语言识别,准确率高达 93.28%和 93.32%。
- 文本中的自动语言识别:一项调查
文章介绍了语言识别的概念及其历史,对现有的特征和方法进行了调查和评估,讨论了评估方法、应用和开放问题,并提出了未来的研究方向。
- 基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别
本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法,针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题,采用字符编码和词根编码两种方法训练模型,并使用堆叠和阈值技术创建两个集成模型,在测试数据上分别获得了 - 使用深度卷积循环神经网络进行语言识别
该论文提出了基于图像领域解决 LID 问题的模型,使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析,并在广泛的实验中证明了模型的应用性,能够轻松地扩展到以前未知的语言,同时保持其分类准确性。
- EMNLP一切英文皆可是印地语:通过自动排名社交媒体上单词借用的可能性来增强语言识别
本文介绍了一组用于识别借用单词的计算方法,这些方法是基于社交媒体的信号的。通过 Spearman 相关系数值,我们的方法在预测借用可能性方面比文献中报道的最佳基准线表现好两倍以上(近 0.62 比近 0.26)。我们根据这种可能性估计要求标 - 文本语言识别
利用微博和深度学习技术,研发了一种可靠的语言识别引擎,在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。
- ACLLanideNN: 基于字符窗口的多语言识别
该研究提出了一种基于双向循环神经网络的文本语言识别方法,能够准确识别文本中涉及的多个语种,并能在不同场景下保持高精度,适用于即开即用的场景。该方法在覆盖 131 种语言的六个数据集上表现稳定并达到了较好的效果。