本文提出了一种名为 2SDiac 的多源模型,该模型可以支持输入中的可选变音符,并引入了一种名为有指导性学习的训练方案,以利用不同级别的随机屏蔽中给定的变音符号。实验结果表明,我们的方法在对非变音文本进行评估时,明显优于基准方法。同时,我们的方法参数数量减少超过 60%,达到了最先进的结果。
Jun, 2023
通过探索阿拉伯语自然语言处理中的 “野生变音符号” 实例,本文提出了一个新的标注数据集,并提出了对阿拉伯语自然语言处理中的分析和消岐方法的扩展,以利用这些变音符号,从而实现显著的改进。
Jun, 2024
使用预训练的 Whisper ASR 模型和基于 transformer 的音标恢复模型,从口语数据中生成粗略音标化的转录文本,作为额外输入,提高了自动音标恢复的性能。通过在同一领域和两个领域外测试集上进行实验证明,该模型相较于仅使用文本的等效模型,至少可以降低 5% 的音标错误率。这些结果凸显了当前基于文本的音标恢复模型在口语数据集上的不足,并为基于口语的音标恢复提供了新的基准。
Nov, 2023
我们引入了一个新的波斯同音异形词消歧数据集,对各种嵌入进行了全面探索,并通过余弦相似度和分类等下游任务来评估其有效性。我们训练了多种机器学习和深度学习模型进行同音异形词消歧,并在准确度、召回率和 F1 分数等方面对模型的性能进行了细致分析,从而深入了解它们的优势和限制。
May, 2024
本文介绍了一种基于语法和上下文相关性的实用、高效的词汇歧义消解算法,并通过基于西班牙语和法语文本中缺失音调问题的案例研究验证了该算法。
Jun, 1994
该研究使用阿拉伯语探讨了联合建模的方法,具体包括字符级别的词汇化特征和字词级别的非词汇化特征,可以更好地将模糊的语言特征解模糊,进一步提高模型的效果和词义的准确性。该方法在现代标准阿拉伯语和阿拉伯埃及话方言的翻译中都取得了相对较好的实验结果。
Oct, 2019
研究表明,最新的希伯来语情境嵌入模型在消除希伯来语同形异义词和分析词素、句法特征方面效果显著,尤其在限制分词数、2 种和 3 种歧义的情况下,对于平衡和不平衡分布的同形异义词同样有效,无论是有监督训练还是几次训练。
研究通过在洲际海峡北美洲国家的不同阿拉伯方言中对同音异义词攻击对情感分析(SA)任务的影响,发现当数据以 “Arabizi” 书写时,同音异义词攻击导致 Transformer 分类的 F1 分数从 0.95 降低到 0.33,旨在凸显 LLM 的弱点并优先考虑道德和负责任的机器学习。
Feb, 2024
本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型,同时解决语言中的变音符号恢复和拼写错误的问题,在 13 种语言中展现强大的表现,相较于传统的拼写检查或基于词典的方法表现更佳。
Jan, 2022
该研究利用词义消歧方法,在词输入编码器之前使用上下文感知的词嵌入来区分单词的多义性,解决神经机器翻译(NMT)系统在翻译歧义单词时存在的问题,实验表明该方法提高了 NMT 系统的翻译准确率。
Aug, 2017