低资源自动标注的嵌入式翻译

Mar, 2024

Embedded Translations for Low-resource Automated Glossing

Changbing Yang, Garrett Nicolai, Miikka Silfverberg

TL;DR我们研究了在资源稀缺环境中的自动插入式脚注，并通过从插入式脚注文本中提取的嵌入式翻译信息来增强硬式注意神经模型。在使用大型语言模型（具体是 BERT 和 T5）对这些翻译进行编码后，我们引入了一个字符级解码器来生成插入式脚注输出。在 SIGMORPHON 2023 关于插入式脚注的共享任务数据集上，通过这些改进，我们的模型在平均改善了 3.97 个百分点的基础上，超过了现有技术水平。在模拟的极度资源稀缺环境中，我们系统在仅使用 100 个句子进行训练时，平均改善了 9.78 个百分点，超过了普通硬式注意基线。这些结果突显了翻译信息在提升系统性能方面的关键作用，尤其是在处理和解释有限数据源时。我们的研究结果为语言的记载和保护提供了有希望的途径，在共享任务数据集上表明了与现有技术水平相比的显著进展。

Abstract

We investigate automatic interlinear glossing in low-resource settings. We augment a hard-attentional neural model with embedded

automatic interlinear glossing low-resource settings neural model translation information language preservation

发现论文，激发创造

GlossLM：面向低资源的多语言预训练用于语言互译注释

我们编译了最大的现有的跨语言翻译数据语料库，从多个来源收集了超过 450k 个样例，覆盖了 1.8k 种语言，以便进行跨语言转移和跨语言翻译生成的研究。然后，我们对这个语料库的部分内容进行大规模多语言模型预训练，并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力，同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6％，证明了跨语言转移对于资源稀缺的语言的有效性。

Mar, 2024

我们能教语言模型术语化濒危语言吗？

利用大型语言模型以及上下文学习的方法实现自动生成线性化标注文本的任务，无需传统训练，减少了研究人员的使用成本。

Jun, 2024

在低资源环境下利用翻译进行语音转录

研究对濒危语言的数据采集，利用多源神经网络模型和翻译，成功提高了转录质量。

Mar, 2018

多个来源胜过一个：在低资源词汇标注中整合外部知识

通过协调多个语言专业知识源，我们解决了低资源语言自动数据驱动预览中的数据稀缺问题，并在词级准确性方面获得了 5 个百分点的平均绝对改进，对横跨六种低资源语言的多样化数据集而言，这些增强在最低资源的 Gitksan 语言中表现尤为明显，我们实现了 10 个百分点的改进。此外，在相同六种语言的模拟超低资源环境中，仅在少于 100 个含义标注句子上训练下，我们在词级准确性方面获得了 10 个百分点的平均改进，超越了以往最先进系统的水平。

Jun, 2024

利用新型超参数优化技术推进文本到 GLOSS 神经翻译

通过研究使用 Transformer 进行文本到手语（text-to-GLOSS）的神经机器翻译，本研究旨在改善神经机器翻译生成手语的准确性和流畅度，通过探索各种架构参数，包括层数、注意力头数、嵌入维度、丢弃和标签平滑，来识别改进文本到手语翻译性能的最佳架构。在 PHOENIX14T 数据集上进行的实验表明，最佳 Transformer 架构在 BLEU-1 和 ROUGE 得分上分别比之前的工作提高了 8.42 和 0.63 个百分点。

Sep, 2023

低资源语音到文本翻译

通过实验研究，我们发现在资源有限的情况下，从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度，并且在训练数据相对较少的情况下，仍然可以实现相对较高的词汇精度和召回率。

Mar, 2018

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023

手语术语翻译的数据增强

该研究提出了两个基于规则的启发式方法，从而提高了手语到文本翻译的机器翻译准确性，并成功地将美国手语（ASL）翻译成英语和德国手语（DGS）翻译成德语。

May, 2021

多语言机器翻译的神经国际语

本研究将显式神经间语纳入多语言编码 - 解码神经机器翻译（NMT）体系结构中，证明该模型通过直接零 - shot 翻译（不使用中转翻译）并使用源语句嵌入来创建英语 Yelp 评论分类器，该分类器能够通过神经间语协调法也对法语和德语评论进行分类，并且即使我们使用的参数数量比成对的 NMT 模型集合少，但我们的方法对于 WMT15 中的每个语言对产生了相当的 BLEU 得分。

Apr, 2018

SIGMORPHON 2023 内语注释共享任务：基线模型

本文描述了 SIGMORPHON 2023 共享任务的基线系统，利用 Transformer 架构并将文本生成视为序列标注任务，旨在自动化语言文献编制过程，以节省注释者的宝贵时间和精力。

Mar, 2023