SIGMORPHON 2023 内语注释共享任务:基线模型
我们编译了最大的现有的跨语言翻译数据语料库,从多个来源收集了超过 450k 个样例,覆盖了 1.8k 种语言,以便进行跨语言转移和跨语言翻译生成的研究。然后,我们对这个语料库的部分内容进行大规模多语言模型预训练,并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力,同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6%,证明了跨语言转移对于资源稀缺的语言的有效性。
Mar, 2024
语言灭绝、线性标注文本、Wav2Gloss、语音标注和端到端系统的比较和分析以及为未来 IGT 从语音生成的研究奠定基础的基准测试。
Mar, 2024
我们研究了在资源稀缺环境中的自动插入式脚注,并通过从插入式脚注文本中提取的嵌入式翻译信息来增强硬式注意神经模型。在使用大型语言模型(具体是 BERT 和 T5)对这些翻译进行编码后,我们引入了一个字符级解码器来生成插入式脚注输出。在 SIGMORPHON 2023 关于插入式脚注的共享任务数据集上,通过这些改进,我们的模型在平均改善了 3.97 个百分点的基础上,超过了现有技术水平。在模拟的极度资源稀缺环境中,我们系统在仅使用 100 个句子进行训练时,平均改善了 9.78 个百分点,超过了普通硬式注意基线。这些结果突显了翻译信息在提升系统性能方面的关键作用,尤其是在处理和解释有限数据源时。我们的研究结果为语言的记载和保护提供了有希望的途径,在共享任务数据集上表明了与现有技术水平相比的显著进展。
Mar, 2024
半监督口语语言标注(S3LG)框架通过引入大规模单语口语文本到标注的手语编码训练中,采用基于规则和基于模型的自动标注方法,添加一种特殊标记以区分合成数据,并利用一致性正则化减少合成数据中的噪音负面影响,通过在公共基准测试上的大量实验证明了该框架的有效性。
Jun, 2024
该研究以 CoNLL-SIGMORPHON 2017 共享任务为基础,使用监督型形态生成技术在 52 种语言上进行训练和测试,结果表明神经序列到序列模型能够在小训练数据集上取得高性能,但由于不同偏置和数据增强策略导致预测的屈折形式集合不一,因此仍需要进一步的改进措施。
Jun, 2017
本研究指出,利用语言学家的专业知识,IGT 数据可以成功应用于 NLP 项目中,但需要定义任务、语言专业知识和任务评估等步骤,本文以 Gitksan 语 Morphological Reinflection 系统为例详细介绍。
Mar, 2022
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
本篇研究实现了一个从文字到手语的系统,并提出了三个不同的组件来实现文字到手语的转换,包括一个词形还原器、一个基于规则的单词重排和删除组件以及一个神经机器翻译系统。将手语姿势从视频中提取出来,用于三种不同的手语语言中的词汇表进行手语姿势转换。最后,将运行文字到手语系统,并将生成的手势姿势组合起来生成一句话。
May, 2023
利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT,在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。
May, 2024