Transformer 能过于组合吗?分析神经机器翻译中的习语处理
本文探讨了神经机器翻译在自然语言处理中的组合性能力测试及其对真实数据的影响,结果显示需要重新思考神经网络的组合性评估及开发相应基准测试。
Aug, 2021
本文探讨了神经机器翻译中存在的习语翻译难题,提出了一个新的自动化量化习语翻译错误的方法,并通过对模型的训练以及不同翻译测试集的测试,探索了单语预训练和习语上下文因素对翻译质量的影响。
Oct, 2022
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
Oct, 2021
使用大型语言模型开发的多语言习语知识库(IdiomKB)能够提高机器翻译模型的性能,通过检索习语的比喻含义,使较小的模型在翻译过程中得到更全面的理解。
Aug, 2023
本文系统地分析了最新预训练 transformer 模型中对词组的表征方式,并使用人类对词组相似度和语义转换的判断来比较单词重叠与组成效应对因素间的影响。结果表明这些模型对词汇内容依赖很强,且未发现有像人类那样的精细组成效应。同时,本文还发现了在不同模型、层次和表征类型之间的词组表征质量的差异,并为使用这些模型的表征提出了相应的建议。
Oct, 2020
研究表明,当进行语言数据训练时,transformers 是学习一种简单的基于树状结构的计算过程,可以解释像人类语言这样的复合意义系统,这种过程没有必要使用其完整架构的全部容量。通过无监督和无参数的方法,可以在任何 transformer 和树状结构之间建立功能投影,而三项不同的任务实验表明,在一些情况下,可无监督地恢复相同的树状结构,这些树状结构有助于模型的行为改进。
Nov, 2022
机器翻译的一个挑战是正确翻译习语表达,本研究提供了对习语翻译及相关问题的简单描述,并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源,我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集,同时引入了两种简单而有效的技术来改进自然习语的翻译,这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度,而且也对非习语句子存在潜在的好处。
Oct, 2023
通过探索 Transformer 模型的设计空间,我们发现一些设计上的决策对该模型的归纳偏差有很大的影响。我们发现这些决策可以显著地提高 Transformer 模型的组合泛化能力,并在各种复合任务中实现了比文献报道的更好的泛化结果,并在语义分析组合泛化基准(COGS)和字符串编辑操作组合基准(PCFG)中实现了最先进的结果。
Aug, 2021
本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性,研究结果表明 Transformer 模型虽然具有出色的多步推理性能,但其解决复合任务的方式是将多步推理化简为线性子图匹配,而并未完全发展出解决问题的系统性解决问题的方法,同时,随着任务复杂度的增加,Transformer 模型的性能也会快速下降。
May, 2023