通过选择性字音符复原进行多义字消歧

Dec, 2019

通过选择性字音符复原进行多义字消歧

Homograph Disambiguation Through Selective Diacritic Restoration

Sawsan Alqahtani, Hanan Aldarmaki, Mona Diab

TL;DR本文提出了一种自动标记一部分词汇以进行音标恢复的方法，从而实现有选择性的同形词消除，并将其在神经机器翻译、词性标注和语义文本相似度等下游应用中进行了评估。

Abstract

lexical ambiguity, a challenging phenomenon in all natural languages, is particularly prevalent for languages with diacritics that tend to be omitted in writing, such as arabic. Omitting diacritics leads to an in

lexical ambiguity diacritic restoration homograph disambiguation nlp applications arabic

发现论文，激发创造

运用部分标点化文本提升阿拉伯文标点的准确度

本文提出了一种名为 2SDiac 的多源模型，该模型可以支持输入中的可选变音符，并引入了一种名为有指导性学习的训练方案，以利用不同级别的随机屏蔽中给定的变音符号。实验结果表明，我们的方法在对非变音文本进行评估时，明显优于基准方法。同时，我们的方法参数数量减少超过 60％，达到了最先进的结果。

Jun, 2023

野外阿拉伯语音调符号：利用机会改进音调标记

通过探索阿拉伯语自然语言处理中的 “野生变音符号” 实例，本文提出了一个新的标注数据集，并提出了对阿拉伯语自然语言处理中的分析和消岐方法的扩展，以利用这些变音符号，从而实现显著的改进。

Jun, 2024

语音数据集的自动重音恢复

使用预训练的 Whisper ASR 模型和基于 transformer 的音标恢复模型，从口语数据中生成粗略音标化的转录文本，作为额外输入，提高了自动音标恢复的性能。通过在同一领域和两个领域外测试集上进行实验证明，该模型相较于仅使用文本的等效模型，至少可以降低 5% 的音标错误率。这些结果凸显了当前基于文本的音标恢复模型在口语数据集上的不足，并为基于口语的音标恢复提供了新的基准。

Nov, 2023

波斯同音词消歧：利用 ParsBERT 提升句子理解力的新词义消歧数据集

我们引入了一个新的波斯同音异形词消歧数据集，对各种嵌入进行了全面探索，并通过余弦相似度和分类等下游任务来评估其有效性。我们训练了多种机器学习和深度学习模型进行同音异形词消歧，并在准确度、召回率和 F1 分数等方面对模型的性能进行了细致分析，从而深入了解它们的优势和限制。

May, 2024

关于词汇歧义解决的决策列表：在西班牙语和法语口音恢复中的应用

本文介绍了一种基于语法和上下文相关性的实用、高效的词汇歧义消解算法，并通过基于西班牙语和法语文本中缺失音调问题的案例研究验证了该算法。

Jun, 1994

联合符号音标标注、词形还原、规范化和细粒度形态标注

该研究使用阿拉伯语探讨了联合建模的方法，具体包括字符级别的词汇化特征和字词级别的非词汇化特征，可以更好地将模糊的语言特征解模糊，进一步提高模型的效果和词义的准确性。该方法在现代标准阿拉伯语和阿拉伯埃及话方言的翻译中都取得了相对较好的实验结果。

Oct, 2019

预训练上下文语言模型对希伯来同形字分析的区分能力

研究表明，最新的希伯来语情境嵌入模型在消除希伯来语同形异义词和分析词素、句法特征方面效果显著，尤其在限制分词数、2 种和 3 种歧义的情况下，对于平衡和不平衡分布的同形异义词同样有效，无论是有监督训练还是几次训练。

May, 2024

马格里布情感分析器的同形攻击

研究通过在洲际海峡北美洲国家的不同阿拉伯方言中对同音异义词攻击对情感分析（SA）任务的影响，发现当数据以 “Arabizi” 书写时，同音异义词攻击导致 Transformer 分类的 F1 分数从 0.95 降低到 0.33，旨在凸显 LLM 的弱点并优先考虑道德和负责任的机器学习。

Feb, 2024

使用 ByT5 转换器模型纠正变音符号和错别字

本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型，同时解决语言中的变音符号恢复和拼写错误的问题，在 13 种语言中展现强大的表现，相较于传统的拼写检查或基于词典的方法表现更佳。

Jan, 2022

神经机器翻译中的同形异义词处理

该研究利用词义消歧方法，在词输入编码器之前使用上下文感知的词嵌入来区分单词的多义性，解决神经机器翻译（NMT）系统在翻译歧义单词时存在的问题，实验表明该方法提高了 NMT 系统的翻译准确率。

Aug, 2017