- 专用模型和高级技术提升孟加拉光学字符识别在多样文档类型中的应用
该研究提出了一种具有特殊能力的孟加拉语 OCR 系统,该系统在保留结构、对齐和图像的同时,在重建文档布局方面表现出色。它采用先进的图像和签名检测进行准确提取,并为文字分割提供了专门模型以适应多样化的文档类型,包括计算机排版、凸版印刷、打字机 - 古代汉语 CWS 和 POS 的基于不确定性的检索框架
提出古代汉语词分割和词性标注框架,通过捕捉词性语义和引入外部知识重新预测基线模型的不确定样本,有效提升性能。
- 韩语中的词分割粒度
这篇论文研究了韩语语言处理中的词分割粒度,通过将韩语从以空格分隔的词(eojeol)转化为一系列的语素,我们发现韩语存在多种可能的词分割粒度。对于特定的语言处理和语料库标注任务,已经提出和使用了几种不同的粒度级别,因为包括韩语在内的凝聚语言 - 基于语言学的梵语词汇、句法和语义任务的神经网络结构
通过自然语言技术,本论文的主要目标是使梵语手稿更便于最终用户使用。梵语的形态丰富、合成、词序自由和资源匮乏性为开发深度学习解决方案带来了重大挑战。论文针对四个基础任务,即词分割、依存分析、合成类型识别和诗歌分析,提出了有关梵语自然语言处理( - 改进上海话的文本到语音合成:通过词分割解决音调连读问题
声调是上海方言(一种吴语变体,主要在上海市区使用)韵律的一个关键组成部分。因此,对于自然流畅的语音而言,声调变化(特别是左边优势变调)是至关重要的。本研究表明,在文本预处理期间进行单词分割可以提高语音合成模型中声调变调的质量。将同一单词内的 - 时间戳嵌入匹配声学到词汇 CTC 自动语音识别
本文提出了一种新颖的嵌入匹配语音识别器,它直接产生了单词的起始时间和持续时间,并可以在测试时输出单词分割和单词混淆网络,同时相对于非时间戳系统,Word timestamps 可以使得系统获得类似于混合 DNN-HMM 系统的单词分割准确度 - 基于视觉绑定、自监督的语音模型中的音节发现和跨语言泛化
本文提出了一种自我监督语音模型训练方法,可以自动检测语音中的音节边界并对同一音节进行聚类,该模型不仅在英语上表现优异且能够泛化到其他语言,实现了零样本学习,且在四种语言上实现了词分割任务的零样本迁移,胜过了之前的最佳成果。
- 运用远程监督的古代汉语词语切分与词性标注
本文提出了一种新的远程监督方法来增加古代汉语分词和词性标注的数据,利用深度神经网络的记忆效应和少量已注释数据来重新标记句子,以解决远程监督中不可避免的错误和未标记的问题,取得了优异的分词效果。
- 子词池化策略对跨语言事件检测的影响
本文研究预训练的多语言语言模型和其在零 - shot 跨语言信息抽取方面的作用,特别是在跨语言事件检测中引入不同的汇聚策略对性能的影响。结果表明,将注意力池化策略作为代表的汇聚方式能够在多种语言和数据集下均取得较好的效果。
- MM越南情感分类是否需要进行分词?
本研究探讨了对于越南情感分类是否需要进行分词的问题,提出了五个使用不同分词工具预处理的越南文本的预先训练模型并通过实验结果表明使用传统的分类器无需进行分词,但在使用 BPE 方法和深度学习模型前需要进行分词,而 RDRsegmenter 是 - 单词边界对于无监督语言学习是否有用?
本论文系统比较了不同输入单元(字符、音素、词、词部分)对基于物理词或物理词段的语言模型的影响,并使用三个语音调整的黑盒 NLP 心理语言学基准(pWUGGY、pBLIMP、pSIMI)在词汇、句法和语义层面上探测网络中的语言知识。研究发现, - ACL开眼整夜睡眠!使用交替记忆进行跨时代序列分段
本研究提出了 CROSSWISE,一种跨时代学习框架,可以用于中文分词,通过 Switch-memory 模块来整合不同年代的语言知识,并在四个语料库上的实验表明其性能显著提高。
- 标题诊断:内容农场标题的操纵
该研究基于卷积神经网络开发了一个标题分类器,主要通过调查标题的词语分割、词性标注和情感特征等关键因素,以确定新闻文章的可信度,并将这些特征集成到分类模型中。经过实验证明,该模型的准确度可达到 93.99%。
- 基于视觉反馈的自监督语音模型中的词语发现
本文提出了一种可视化感知的口语术语探测方法,通过对自注意力头的训练与分析发现,在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力,并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法 - 动态规划和自监督评分在已发现的音素单元上的词语分割
本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法,其中采用自底部方法探索单元发现,从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果,并且在 Z - 梵文分词和形态分析
在这篇文章中,我们描述了我们参加的梵语单词分割和形态分析比赛,并提出了一个基于序列标注来预测分割操作的单词分割方法和一个基于形态标记预测转换规则来进行形态分析的方法,同时提出了一种用于联合分割和形态分析的端到端可训练的流水线模型,在联合分割 - EMNLP关于使用注意力机制分隔单词的难度
在语音领域中,基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明,仅依靠注意力机制是不稳健的,只有在训练数据包含话语标注的情况下才具有可用性。
- ACL分词对语音翻译性别偏差的影响
本文探讨了中性的分词组件是否会影响到翻译性别,以及某些分词方法是否会惩罚女性语言标记的表示。作者比较了 5 种不同的分词策略,并发现最先进的子单词拆分技术 (BPE) 导致更高的性别偏见。因此,我们提出一种结合字符级分词更好地翻译性别,同时 - ACL利用语音先验解读下分割的古代文字
提出了一种基于国际音标的字符嵌入的生成框架,该框架可以处理未分隔单词和最接近的已知语言未确定的情况下,对未破译的失传语言进行解密,并在哥特语、乌加里特语和伊比利亚语上进行了实验验证。
- ACL联合中文分词和依存句法分析的基于图的模型
本文提出了一种基于图形的模型来集成中文分词和依赖分析,相较于之前基于转移的联合模型,我们的模型更简洁,从而在中文分词和依赖分析方面取得了更好的性能,并且当结合 BERT 时,我们的模型可以显著减少联合模型和基于黄金分割词的模型之间的性能差距