无字典恢复希伯来文变音符
D-Nikud 是一种创新的希伯来语音符标注方法,它将 LSTM 网络和基于 BERT 的预训练模型的优势相结合。通过模仿 Nakdimon 方法论,我们将其与 TavBERT 预训练模型结合,我们的系统采用了先进的架构选择和多样化的训练数据。我们的实验展示了在多个基准数据集上的最先进结果,特别强调现代文本和更具体的性别音符标注。
Jan, 2024
本文介绍了一种自动标点希伯来文的系统,它结合了现代神经模型和精心策划的语言学知识以及全面手动构建的表格和字典。除了提供最先进的标点准确性外,该系统还支持手动编辑和校正自动输出的接口,并具有一些使其特别适用于准备希伯来文文本科学版的功能。该系统支持现代希伯来文、拉宾尼克希伯来文和诗歌希伯来文。
May, 2020
本研究通过对现有系统、度量和资源的批判性回顾,提供了一个可以用于基准测试阿拉伯文连字的免费清洗数据集。实验结果表明,神经 Shakkala 系统相对于传统的基于规则的方法和其他闭源工具具有更好的连字错误率表现。
Apr, 2019
本研究提出了一种基于一维膨胀卷积的字符级别方法,用于重建拉丁字母为基础、英语为主导的互联网语言环境中的发音符号。该方法比基于递归神经网络或语言建模的方法表现更佳,且适用于 Web 浏览器,尤其适用于匈牙利语等语言的应用。
Jan, 2022
本文提出了几种用于阿拉伯文本自动标点的深度学习模型。模型既采用前馈神经网络也采用循环神经网络,包括诸如 100 热编码,嵌入式等多种增强技术。结果表明,与其他需要语言相关的后处理步骤的模型相比,我们的模型要么更好,要么与之相当。此外,我们还提出通过标点符号的使用,改善自然语言处理任务,如机器翻译。
Nov, 2019
本文提出了一种名为 2SDiac 的多源模型,该模型可以支持输入中的可选变音符,并引入了一种名为有指导性学习的训练方案,以利用不同级别的随机屏蔽中给定的变音符号。实验结果表明,我们的方法在对非变音文本进行评估时,明显优于基准方法。同时,我们的方法参数数量减少超过 60%,达到了最先进的结果。
Jun, 2023
通过探索阿拉伯语自然语言处理中的 “野生变音符号” 实例,本文提出了一个新的标注数据集,并提出了对阿拉伯语自然语言处理中的分析和消岐方法的扩展,以利用这些变音符号,从而实现显著的改进。
Jun, 2024
本文提出了一种针对阿拉伯文音标的新型网络结构,使用基于词和字符层级的循环神经网络层级结构和交叉层级的注意力机制,进一步提高了网络的可解释性。使用额外技巧如句子 dropout 和多数投票进一步提高了模型性能,使得在 Tashkeela 阿拉伯文音标数据集上达到了相对误差减少 30.56% 的 5.34% WER,超过了之前最优结果。
Nov, 2020
本文研究如何利用预训练语言模型来学习阿拉伯语言中的符号标记,并通过微调模型来实现不需特征工程,最小化训练量的方式进行符号标记任务,从而取得了最新的指标
Mar, 2023
本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型,同时解决语言中的变音符号恢复和拼写错误的问题,在 13 种语言中展现强大的表现,相较于传统的拼写检查或基于词典的方法表现更佳。
Jan, 2022