- ACL面向不同语种交流者的语音对话翻译
本研究提出一项新的任务:针对不同语言的演讲者进行语音对话翻译,构建 SpeechBSD 数据集并进行基线实验,探讨上下文的重要性,提出单语言上下文和双语言上下文两种方式,并使用 Whisper 和 mBART 等方法进行级联语音翻译实验,结 - 将多语言模型应用于问答(QA)
研究单语和多语言语言模型在英语、芬兰语和日语问答任务中的表现,并开发用于判断问题是否可回答和标识上下文中答案的模型,并尝试评估预训练的多语言编码器(Multilingual BERT)在跨语言零 - shot 学习中的效果。
- 使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力
本文介绍了在大数据集上通过预训练机器学习模型和微调等方法,利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估,并取得成功的实验结果。
- 马拉地语中仇恨言论检测和文本分类的单语和多语 BERT 案例研究
在本文中,我们使用 Marathi 语言的标准多语言模型和单语模型比较分析,通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时,我们还评估了来自这些模型的句子嵌入。
- ACL你的分词器有多好?多语言语言模型在单语言性能上的表现
通过在九种语言和五种单语言任务的实验中对比预训练的多语言和单语言模型的表现来研究它们之间的差异,结果表明预训练数据规模和专门的单语言分词器对于下游性能同样重要,而对于具有多语言模型词汇表适当表示的语言的性能下降可以忽略不计。使用专门的单语言 - ACL跨语言句法评估词预测模型
通过多语言的句法评估套件 CLAMS,调查神经词语预测模型在各种语言中学习语法的能力,结果表明单语 LSTMs 在句子成分及吸引子存在时达到了很高的精度,而在其他方面的一致性准确率较低,多语言模型通常表现不如单语模型。
- BERTje:荷兰语 BERT 模型
该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型,在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上,BERTje 表现出更好的性能。
- ACL跨多语言的复杂词辨识强基线
本文介绍了关于复杂词汇辨识(CWI)的研究,包括单语和跨语言的模型,并使用神经网络实现了多任务学习,取得了可比和更好的成果,此外还分析了数据标注不一致的原因。
- 使用通用 CEFR 分类的实验
本文研究使用通用的和专业的特征,既有理论指导又有数据驱动方法,探索利用 CEFR 框架进行语言能力自动分类的可能性,并在德语、捷克语和意大利语三种语言上进行了相应的实验研究,实验结果表明单语和多语模型具有相似的性能,跨语言分类结果略有降低。