楔形文字符号的递归编码
本研究使用基于图的两种方法和距离计算,分别是基于图编辑距离的分割算法和适应于图的 CNN,实现对楔形文字的自动识别和分类,两种方法分别在训练阶段和预测阶段具有不同的计算成本和实用价值。
Feb, 2018
通过数字化古代近东研究(DANES)社区的挑战,我们开发了用于处理楔形文字的数字工具,这是一种镌刻在泥板上的三维文字,使用了三千多年和至少八种主要语言。我们创建和使用了 HeiCuBeDa 和 MaiCuBeDa 数据集,包含约 500 个带注释的泥板。我们的新型 OCR 样式方法针对混合图像数据,提供了一种在三维渲染和照片之间转移注释的映射工具。我们使用 GigaMesh 的 MSII(曲率,参见此处链接)基于渲染、Phong 阴影的三维模型和照片以及光照增强的图像数据进行符号定位。结果显示,使用渲染的 3D 图像进行符号检测比其他研究使用的照片效果更好。此外,我们的方法在仅使用照片时也能得到合理的结果,但在混合数据集中效果最好。更重要的是,Phong 渲染,特别是 MSII 渲染,提高了照片的结果,这是全球规模最大的数据集。
Aug, 2023
基于深度学习和变分自编码器方法,针对库内容丰富的超过 94,000 张楔形文字片的数据集,通过研究其轮廓形状作为关键指标,成功实现了古代文献的自动分类和时代定位,为历史学家和铭刻学家提供了更深入的洞察和解释工具。
Jun, 2024
本研究针对美国手语中的手指拼字识别进行了研究,并提出了迄今为止最大的数据集用于手指拼字识别。使用这个数据集,我们提出了在自然出现的视频数据中识别手指拼字序列的第一次尝试,并利用手的检测器和序列模型进行识别。通过对模型变量的影响分析,本研究提供了基准参考,可用于进一步的手语识别研究。
Oct, 2018
提出了一种基于国际音标的字符嵌入的生成框架,该框架可以处理未分隔单词和最接近的已知语言未确定的情况下,对未破译的失传语言进行解密,并在哥特语、乌加里特语和伊比利亚语上进行了实验验证。
Oct, 2020
人类语言的一个特点是组合性 —— 通过重复使用相对较小的基本单元,创建出较为庞大、越发复杂的结构。本文探索了语言中组合性反映了人类对符号系统中表现效率的归纳偏见这一观点。我们使用先进的库学习和程序合成技术,开发了一个计算框架来发现一种写作系统中的结构。计算框架在中国的写作系统中发现了已知的语言结构,并揭示了系统在表现效率的压力下向简化方向演化的过程。我们演示了如何通过利用学到的抽象和压缩的图书馆学习方法,揭示出构成人类认知中组合结构创造的基本计算原则,并对有效沟通系统的演化提供更广泛的见解。
May, 2024
该论文介绍了一种利用向量量化从手语姿势序列中得出离散表示的手语矢量量化网络的新方法,该方法支持高级解码方法,并整合了潜在级别的对齐以增强语言的一致性,并通过综合评估证明了该方法优于之前的手语生产方法的卓越性能,并突出了反向转译和 Fréchet 手势距离作为评估指标的可靠性
Sep, 2023
本文介绍了一个针对手语视频的自然语言处理方案,包括识别、翻译、搜索等任务,该方案对于使人工智能技术可被聋人使用至关重要。作者提出了一种端到端的模型 FSS-Net 来解决手语视频中的手指拼写关键词或短语的搜索问题,并经过实验证明,该模型对于搜索和检索模型来说是一个十分关键的组成部分,能够明显优于其他基准模型的性能。
Mar, 2022
本研究提出了一个基于自动编码器和注意力机制的神经编码器 - 解码器模型用于视频中美国手语手指拼写字的自动识别,不需要帧级别的标签或手工特征,并且可以利用未标记数据来提高特征学习。该模型在无需训练标签的情况下,识别出视频序列中的手指拼写的单词,相对于以往的方法在独立标记和标记者自适应的手指拼写识别中分别获得了 11.6% 和 4.4% 的绝对字母准确率提高。
Oct, 2017