会话系统中成语的向量表征
本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练,将习惯用语结合到 BART 中取得了比基线模型 (BART) 更好的性能,包括在嵌入聚类方面提高了 0.19 分的同质化得分和在习惯用语处理任务中提高了高达 25% 的序列准确性,表明此方法能够解决习惯用语在自动化自然语言处理和语言模型中带来的挑战。
Jul, 2022
本文提供一个大规模的,用于英语自然语言处理的潜在成语表达(Potential Idiomatic Expression,PIE)数据集,其中包括超过 1,200 种逾二十一万个语料库样例,涵盖了十类(或意义)成语及其词义,提供了基准和比较三种常见的模型(包括 BERT 模型)的分类实验,该数据集可扩展,可用于各种 NLP 任务。
Apr, 2021
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
Oct, 2021
使用大型语言模型开发的多语言习语知识库(IdiomKB)能够提高机器翻译模型的性能,通过检索习语的比喻含义,使较小的模型在翻译过程中得到更全面的理解。
Aug, 2023
本文提出了一个用于自动分类习语和字面表达的算法,通过利用 LDA 无监督聚类方法和情感分析技术,采用词袋表示法来提取包含习语和字面表达的段落中的主题,从而实现对习语和字面表达的区分。
Feb, 2018
通过使用预训练的语言模型,我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法,从而更好地理解多词表达的惯用含义。
Apr, 2022
本篇文章研究了一种新的文本生成应用 —— 成语句子生成,通过使用神经模型和心理语言学理论,该文章提出一种有效转化直接字面短语到相应成语短语的方法,该方法在新建数据集上表现突出,超过其他文本生成竞争基准模型。
Apr, 2021
机器翻译的一个挑战是正确翻译习语表达,本研究提供了对习语翻译及相关问题的简单描述,并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源,我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集,同时引入了两种简单而有效的技术来改进自然习语的翻译,这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度,而且也对非习语句子存在潜在的好处。
Oct, 2023
本文探讨了神经机器翻译中存在的习语翻译难题,提出了一个新的自动化量化习语翻译错误的方法,并通过对模型的训练以及不同翻译测试集的测试,探索了单语预训练和习语上下文因素对翻译质量的影响。
Oct, 2022