通用脚本语言识别
该研究论文调查了脚本识别和文本识别的现有方法和技术,并讨论了在处理和识别脚本方面的技术改进,特别是针对印度的 12 种主要印度文字的复杂特征和高级预处理方法。
Aug, 2023
提出了一种新的跨语言平台,用于手写单词识别和标记低资源脚本,其中使用可用脚本(考虑为源脚本)的充分大的数据集进行训练,并在其他脚本(考虑为目标脚本)上进行测试,该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习,成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。
Dec, 2017
我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别(LID)数据集和模型,并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。
May, 2023
本研究提出了一种跨语言脚本知识共享架构,利用交叉关注和语言脚本的对齐来生成更好的文本表示,实验证明了该方法的有效性,并通过模型可解释性技术解释了语言特定表示之间的知识共享。
Feb, 2024
本文研究在社交媒体上,通过使用建模技术,对不同语言,特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理,而这有助于提高机器翻译和语言识别等下游任务的性能。
May, 2023
提供了一个新的用于脚本识别算法比较的数据库,其中包含来自多个不同脚本的印刷和手写文件。该数据库可用于进行各种基准测试,并提供了不同级别和类型的脚本识别结果,为未来的研究提供基础。
May, 2024
本文介绍了团队 HWR 在 VarDial 2021 举办的 Dravidian Language Identification (DLI) 共享任务期间提交的内容,包括使用自适应语言模型的朴素贝叶斯分类器和基于 Transformer 的模型进行的实验,以及在语言识别相关任务中深度学习方法的表现不如其他文本分类任务这一研究发现。
Mar, 2021
本文讨论了一个自动语言识别系统的尝试,该系统用于印度 5 种密切相关的印度雅利安语言:阿瓦德语、博杰普尔语、布拉吉语、印地语和马加耳语。使用不同来源的可比较语料库,编译了这些语言的长度不同的语料库。使用这些语料库,开发了一个语言识别系统,目前的准确率为 96.48%。我们还使用这些语料库研究了 5 种语言在词汇水平上的相似性,这是这些语言亲和度首个基于数据的研究。
Mar, 2018
本篇研究探讨了跨语言相似度与不同文本之间的相互作用,针对两个监督学习任务,即词性标注和情感分析,使用新标注的阿尔及利亚用户生成评论语料库和多语言模型进行研究,并发现语言的相似度和文本差异之间存在微妙的关系。
May, 2021
该研究针对代码混合文本的词级别语言识别问题,构建了 CoLI-Kenglish 数据集,利用机器学习、深度学习和迁移学习方法建立和评估了 CoLI-vectors、CoLI-BiLSTM 和 CoLI-ULMFiT 学习模型,研究结果表明 CoLI-ngrams 模型在所有模型中取得了最好的效果。
Nov, 2022