本文提出了一种基于概率的字符串编辑距离模型,并通过应用于口语语音中单词发音的学习来证明其实用性
Oct, 1996
本文提出了一种基于深度学习的 CNN-ED 管道,将编辑距离嵌入欧几里得距离以进行快速近似相似度搜索来优化字符串相似度搜索。实验结果表明,与数据无关的 CGK 嵌入和基于 RNN 的 GRU 嵌入相比,基于 CNN 的嵌入在准确性和效率方面都优于前者,有时效率提高了若干个数量级。
Jan, 2020
通过模仿学习,使用神经过渡型字符串转换器来进行形态学任务,如词形生成和词形归一化。采用简单的专家策略来消除对字符对齐器或热启动的需求,并在多个基准测试中实现了强大和最先进的性能。
Aug, 2018
本文提出了一种将基于搜索的技术与深度嵌入模型相结合的混合方法,用于解决图形编辑距离(GED)的效率和适应性问题。通过动态规划将节点级嵌入设计成动态重用的方式,并鼓励修剪次优分支,该方法可以轻松地在 A * 过程中动态地集成,并通过学习的启发式显着减少计算负担。实验结果表明,该方法可以显着简化 A * 的搜索过程,而准确性不会显著降低。
Nov, 2020
本文提出了一种高效的代数无监督方法 EUGENE,它近似计算图的编辑距离,并产生对应的编辑路径,同时消除了对真实编辑距离的生成和数据特定训练的需求。广泛的实验评估表明,EUGENE 在各个基准数据集中始终排名最准确的方法之一,并且胜过大部分神经网络方法。
Feb, 2024
本研究提出了神经模型,利用单词字符串和音相似性来进行文本规范化。结论表明,将单词字符串的相似性与声音相似性综合考虑,能成功应对缩写、拼写错误和语音替代等问题,并达到了比基础模型更高的 F1 得分。
提出一种基于编辑距离计算奖励的增强学习方法,使 RNN-T 模型在推理时更接近训练时的效果。 在 LibriSpeech 上表现出了 SoTA WERs。
May, 2023
该论文提出了一种基于嵌入的新型度量学习方法,通过嵌入树节点向量来学习编辑距离,使欧几里得距离支持类别判别并提高分类准确率,该方法在包括计算机科学、生物医学和自然语言处理数据集的六个基准数据集上优于目前树形度量学习技术的最新技术。
May, 2018
本文研究分布式表征编辑的问题,并将神经编辑器与编辑编码器结合起来,可以学习表示编辑的重要信息,并用于将编辑应用于新输入。我们在自然语言和源代码编辑数据上进行实验,结果表明我们的神经网络模型学习捕捉了编辑的结构和语义。希望这个有趣的任务和数据源能够激发其他研究者进一步研究这一问题。
Oct, 2018
Seq2Edits 是一种基于开放词汇的序列编辑方法,适用于自然语言处理 (NLP) 任务,其中每个序列到序列转换表示为一系列编辑操作,用于替换源跨度或保持其不变。该方法在五个 NLP 任务上进行了评估,并在各个方面都取得了有竞争力的结果。其中在语法错误修正方面,与完整序列模型相比,该方法提高了推理速度达 5.2 倍,而推理时间取决于编辑数而不是目标标记数。
Sep, 2020