基于深度卷积神经网络的基于字节的语言识别

MMSep, 2016

基于深度卷积神经网络的基于字节的语言识别

Byte-based Language Identification with Deep Convolutional Networks

Johannes Bjerva

TL;DR使用深度残差网络和字节表示，仅在已发布的数据集上进行训练，可以对相似语言进行有效区分，获得了高精度的分类结果。

Abstract

We report on our system for the shared task on discriminating between similar languages (DSL 2016). The system uses only byte representations in a deep residual network (ResNet). The system, named ResIdent, is trained only on the data released with the task (→

发现论文，激发创造

文本语言识别

利用微博和深度学习技术，研发了一种可靠的语言识别引擎，在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。

Jan, 2017

小型关键词检测的深度残差学习

本研究采用深度残差学习和扩张卷积探索了关键词检测任务的应用，使用 Google Speech Commands 数据集作为基准。我们的最佳残差网络实现在准确性方面明显优于 Google 以前的卷积神经网络。通編变化模型深度和宽度，我们可以实现比以前的小型脚本变体更优秀的紧凑型模型。据我们所知，我们是第一个研究这些方法的关键词检测任务的人，我们的结果建立了一个开源的最新参考来支持未来基于语音的接口的开发。

Oct, 2017

使用深度卷积循环神经网络进行语言识别

该论文提出了基于图像领域解决 LID 问题的模型，使用了混合的卷积循环神经网络技术对提供的音频片段的频谱图像进行分析，并在广泛的实验中证明了模型的应用性，能够轻松地扩展到以前未知的语言，同时保持其分类准确性。

Aug, 2017

深度残差网络语义标注

提出了一种新的语义标记任务 sem-tagging，旨在针对多语言语义分析，首次利用了深度残差网络 (ResNets) 进行标记，使用了词和字符表示以及包含新的残余绕道架构。通过内在评估和词性标注，我们的系统显著优于对英语通用依赖词性标注的现有结果（UD v1.2 上的 95.71％准确度和 UD v1.3 上的 95.67％准确度）。

Sep, 2016

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

一种快速、紧凑、准确的混合语言文本语种识别模型

提出了一种可以快速且精确地标识码混合多语言文本中每个单词的语言的前馈网络的方法，并在 100 种语言和 100 种语言对中展示了其优越性能。

Oct, 2018

深层残差学习用于弱监督下的关系抽取

本文中，我们设计了一种使用残差学习的卷积神经网络，并研究了其对于嘈杂的远程监督关系抽取任务的影响，结果表明即使在只有 9 层 CNN 的情况下，使用恒等映射也可以显著提高远程监督关系抽取的性能。

Jul, 2017

使用多通道神经网络和上下文捕捉进行代码混合数据的语言识别

本研究通过实现多通道神经网络结合 CNN 和 LSTM 的方法和 Bi-LSTM-CRF 上下文捕捉模块，成功实现了对混合代码数据的单词级别的语言识别，准确率高达 93.28％和 93.32％。

Aug, 2018

语言识别的开放数据集和模型

该研究提出了一种基于单语数据训练的语言识别模型，其在 201 种语言上的宏平均 F1 得分为 0.93，而误报率为 0.033，将先前工作的表现远远超过。我们对数据集进行了精心筛选，通过手动审核每个来源和每种语言的样本来确保其可靠性。模型和数据集都向研究界公开，并详细分析了模型的性能。

May, 2023

面向资源匮乏语言的跨语言任务特定表示学习用于文本分类

使用双向 LSTM 网络与相似度度量的对比损失函数，通过在共同空间中学习资源贫乏和资源丰富句子的表示方法，实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言（如印地语和泰卢固语）和资源丰富语言（如英语和西班牙语）进行有效分类的目标。

Jun, 2018