Wav2Gloss: 从语音生成词汇顺序排列的文本
我们编译了最大的现有的跨语言翻译数据语料库,从多个来源收集了超过 450k 个样例,覆盖了 1.8k 种语言,以便进行跨语言转移和跨语言翻译生成的研究。然后,我们对这个语料库的部分内容进行大规模多语言模型预训练,并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力,同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6%,证明了跨语言转移对于资源稀缺的语言的有效性。
Mar, 2024
本文描述了 SIGMORPHON 2023 共享任务的基线系统,利用 Transformer 架构并将文本生成视为序列标注任务,旨在自动化语言文献编制过程,以节省注释者的宝贵时间和精力。
Mar, 2023
本研究指出,利用语言学家的专业知识,IGT 数据可以成功应用于 NLP 项目中,但需要定义任务、语言专业知识和任务评估等步骤,本文以 Gitksan 语 Morphological Reinflection 系统为例详细介绍。
Mar, 2022
我们研究了在资源稀缺环境中的自动插入式脚注,并通过从插入式脚注文本中提取的嵌入式翻译信息来增强硬式注意神经模型。在使用大型语言模型(具体是 BERT 和 T5)对这些翻译进行编码后,我们引入了一个字符级解码器来生成插入式脚注输出。在 SIGMORPHON 2023 关于插入式脚注的共享任务数据集上,通过这些改进,我们的模型在平均改善了 3.97 个百分点的基础上,超过了现有技术水平。在模拟的极度资源稀缺环境中,我们系统在仅使用 100 个句子进行训练时,平均改善了 9.78 个百分点,超过了普通硬式注意基线。这些结果突显了翻译信息在提升系统性能方面的关键作用,尤其是在处理和解释有限数据源时。我们的研究结果为语言的记载和保护提供了有希望的途径,在共享任务数据集上表明了与现有技术水平相比的显著进展。
Mar, 2024
提出一种转录目标单语言数据为其伪吉祥语的简单高效的规则转换方法,从而增强 SLT 翻译的自动化,实验结果表明,该方法能够显着提高 SLT 的性能,尤其是在 PHEONIX-WEATHER 2014T 和 ASLG-PC12 等两个 SLT 基准数据集上实现了最新成果。
Apr, 2023
我们的研究通过利用预训练的大型语言模型(LLMs)、数据增强和新的标签平滑损失函数,在中间注释的视频中,专注于 Gloss2Text 翻译阶段,并在 PHOENIX Weather 2014T 数据集上的广泛实验和消融研究中取得了显著的性能提升,为手语翻译领域的研究和发展提供了有效的方法和有前景的方向。
Jul, 2024
本文介绍了 GloFE 框架,该框架解决了无手语注释的手语翻译问题,并通过利用手语和口语的共同语义以及密码比对,在包括 OpenASL 和 How2Sign 在内的大型数据集上获得了最新的结果。
May, 2023