数字记事正在流行,我们的研究 InkSight 致力于通过转换手写笔记到数字墨迹来弥合数字记事和传统纸笔记的差距,这是第一个有效地将手写文本转换为各种具有不同视觉特征和背景的照片的工作。
Feb, 2024
通过研究数字墨水生成模型的多种采样和排名方法,本文提出了在计算预算内最大化输出质量的方法,这在英文、越南文和数学公式的多个数据集、两种模型类型和两种常见墨水数据表示中得到了证实,所有组合中,这都可以使合成墨水的识别率有意义的提高,有时甚至可以使字符误差率度量减少一半以上,并描述了一种选择最佳采样和排名方法组合的方法。
Jun, 2023
本文提出了一种新的混合方法,该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误,并使用 Constraint Grammar(CG)区分搜索空间中一组校正候选项。
Feb, 2023
通过数据增强和递归神经网络,我们提出了一种解决在线市场拼写错误的方法,以找到用户查询和可用产品名称之间的最佳匹配。这种数据高效的解决方案证明了受控高质量合成数据在当前依赖于庞大且常常无法控制的数据集的大型语言模型的背景下可能成为强大的工具。
Aug, 2023
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
本研究提出了一种可定制化的数据中心系统,能够自动生成复杂健康相关词汇的常见拼写错误,其拼写变量生成器依赖于从大规模未标记的文本中学习的密集向量模型,能够在过滤词汇时递归执行,生成的变体可用于在噪声环境下进行健康文本挖掘。
Jun, 2018
这篇文章介绍了一种新型生成神经网络,能够有效将数字墨水中的内容和风格进行解耦,从而实现数字墨水内容的可编辑性。同时,该神经网络还能够进行风格转移而不改变原有内容,并能在单词级别上编辑数字墨水。
Jan, 2018
使用对比学习技术改进训练数据、模型架构和推理过程,合成数字墨迹的长文本问题得以解决,可减少字符错误率,并通过人类研究证明生成数据真实可信。
Nov, 2023
纠正学生们的多项选择答案是一个重复和机械的任务,可以被视为一项图像多分类任务,我们设置了五个分类,其中四个是可能的正确选项,一个是其他不正确的写法,考虑到非标准写法选项的可能性。
Sep, 2023
本文介绍了一种基于上下文的 OCR 错误纠正算法,它利用了 Google 在线拼写建议的内部数据库来检测和纠正 OCR 的非单词和真实单词错误。实验表明,该算法可以显著提高 OCR 纠错率。
Apr, 2012