使用语义兼容性进行惯用语表达式识别
本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练,将习惯用语结合到 BART 中取得了比基线模型 (BART) 更好的性能,包括在嵌入聚类方面提高了 0.19 分的同质化得分和在习惯用语处理任务中提高了高达 25% 的序列准确性,表明此方法能够解决习惯用语在自动化自然语言处理和语言模型中带来的挑战。
Jul, 2022
本文提出了一个用于自动分类习语和字面表达的算法,通过利用 LDA 无监督聚类方法和情感分析技术,采用词袋表示法来提取包含习语和字面表达的段落中的主题,从而实现对习语和字面表达的区分。
Feb, 2018
通过使用预训练的语言模型,我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法,从而更好地理解多词表达的惯用含义。
Apr, 2022
本文研究表明,由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复,通过利用潜在习惯表达(PIE)- 英语习语语料库,我们实现了 98%F1 宏分数的准确率和更好的会话回复效果,为公众贡献了模型检查点 / 演示和代码。
May, 2022
本研究提出了一个多层次的统一框架,用于在不同层次上考虑语境作用的方方面面,以更好地识别多词表达式的习语性。通过广泛的实验,我们证明了我们的方法基于目标 MWE 的内部和句间语境是有效的,在提高相关模型性能方面具有显著作用。同时,我们详细分享了在 SemEval-2022 任务 2 上的经验教训,以期对同类任务未来的工作有所裨益。
Jun, 2022
本文探讨了神经机器翻译中存在的习语翻译难题,提出了一个新的自动化量化习语翻译错误的方法,并通过对模型的训练以及不同翻译测试集的测试,探索了单语预训练和习语上下文因素对翻译质量的影响。
Oct, 2022
使用多语言预训练语言模型的上下文表示仅探测习语性的方法,实验发现模型规模越大在习语性探测上越有效。然而,使用较高的模型层不一定能够保证更好的性能。在多语言场景下,不同语言的融合不一致,资源丰富的语言比其他语言更具有优势。
May, 2022
该论文探讨了神经网络机器翻译模型的机制,发现 Transformers 模型在将成语翻译为目标语言时,倾向于将其视为由多个字面意义组成的表达式,导致成语的字面意义被保留。
May, 2022
本篇文章研究了一种新的文本生成应用 —— 成语句子生成,通过使用神经模型和心理语言学理论,该文章提出一种有效转化直接字面短语到相应成语短语的方法,该方法在新建数据集上表现突出,超过其他文本生成竞争基准模型。
Apr, 2021