会话系统中成语的向量表征

May, 2022

Vector Representations of Idioms in Conversational Systems

Tosin Adewumi, Foteini Liwicki, Marcus Liwicki

TL;DR本文研究表明，由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复，通过利用潜在习惯表达（PIE）- 英语习语语料库，我们实现了 98％F1 宏分数的准确率和更好的会话回复效果，为公众贡献了模型检查点 / 演示和代码。

Abstract

We demonstrate, in this study, that an open-domain conversational system trained on idioms or figurative language generates more fitting responses to prompts containing →

open-domain conversational system idioms natural language processing classification conversation generation

发现论文，激发创造

让 BART 乘坐惯用语列车：学习表示惯用表达式

本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练，将习惯用语结合到 BART 中取得了比基线模型 (BART) 更好的性能，包括在嵌入聚类方面提高了 0.19 分的同质化得分和在习惯用语处理任务中提高了高达 25% 的序列准确性，表明此方法能够解决习惯用语在自动化自然语言处理和语言模型中带来的挑战。

Jul, 2022

潜在习语表达（PIE）英语：习语类语料库

本文提供一个大规模的，用于英语自然语言处理的潜在成语表达（Potential Idiomatic Expression，PIE）数据集，其中包括超过 1,200 种逾二十一万个语料库样例，涵盖了十类（或意义）成语及其词义，提供了基准和比较三种常见的模型（包括 BERT 模型）的分类实验，该数据集可扩展，可用于各种 NLP 任务。

Apr, 2021

使用语义兼容性进行惯用语表达式识别

本研究提出了一种多阶段深度神经网络架构，利用注意力机制和上下文信息对句子中的习语表达进行定位，通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果，并具有对未见过的习语表达的识别能力。

Oct, 2021

翻译意义而非单纯的词语：IdiomKB 在通过语言模型优化成语翻译中的作用

使用大型语言模型开发的多语言习语知识库（IdiomKB）能够提高机器翻译模型的性能，通过检索习语的比喻含义，使较小的模型在翻译过程中得到更全面的理解。

Aug, 2023

使用主题模型和情感强度分类习语和字面表达

本文提出了一个用于自动分类习语和字面表达的算法，通过利用 LDA 无监督聚类方法和情感分析技术，采用词袋表示法来提取包含习语和字面表达的段落中的主题，从而实现对习语和字面表达的区分。

Feb, 2018

HIT 在 SemEval-2022 任务 2 中的表现：预训练语言模型用于成语检测

通过使用预训练的语言模型，我们可以提供上下文感知的句子嵌入来检测句子中的多词表达是否是惯用用法，从而更好地理解多词表达的惯用含义。

Apr, 2022

审视冰山一角：一组惯用语翻译的数据集

本文提出了第一个大规模的短语翻译数据集，用于解决神经机器翻译模型中的成语翻译问题，并通过初步的实验评估了该数据集的效果。

Feb, 2018

由大胆解决问题到破解难题：成语文本生成

本篇文章研究了一种新的文本生成应用 —— 成语句子生成，通过使用神经模型和心理语言学理论，该文章提出一种有效转化直接字面短语到相应成语短语的方法，该方法在新建数据集上表现突出，超过其他文本生成竞争基准模型。

Apr, 2021

跨越门槛：通过检索增强和损失加权的习语机器翻译

机器翻译的一个挑战是正确翻译习语表达，本研究提供了对习语翻译及相关问题的简单描述，并通过实验找到了适合使用习语翻译的临界点。为了丰富多语种资源，我们编制了一个包含法语、芬兰语和日语中约 4 千个自然句子的数据集，同时引入了两种简单而有效的技术来改进自然习语的翻译，这不仅在习语句子的准确性上提高了强大预训练机器翻译模型达到了 13% 的绝对准确度，而且也对非习语句子存在潜在的好处。

Oct, 2023

神经机器翻译中成语的自动评估和分析

本文探讨了神经机器翻译中存在的习语翻译难题，提出了一个新的自动化量化习语翻译错误的方法，并通过对模型的训练以及不同翻译测试集的测试，探索了单语预训练和习语上下文因素对翻译质量的影响。

Oct, 2022