提出了一种用于无监督多词表达式改写的方法,通过使用单语料库和预训练语言模型(无需微调),不需要使用任何外部资源,例如词典,并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。
Jun, 2023
本文提出了中文成语改写(CIP)任务,以将包含成语的句子重新表述为不成语的句子并保留原本的意思,从而方便处理中文数据集和提高中文 NLP 任务的性能。本研究使用人与机器协作建立了一个包含 115,530 个句子对的大规模 CIP 数据集,并且使用三种基线模型和两种新方法,表现更好。
Apr, 2022
本文提出了一种新的任务 iParaphrasing,通过提取基于视觉的复述词(VGPs)来改善语言和图像多模态任务的性能,使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。
Jun, 2018
本文研究表明,由习语或比喻语言训练的开放域对话系统能够更好地生成与包含习语提示相符的回复,通过利用潜在习惯表达(PIE)- 英语习语语料库,我们实现了 98%F1 宏分数的准确率和更好的会话回复效果,为公众贡献了模型检查点 / 演示和代码。
May, 2022
本研究使用适配器作为轻量级非组合式语言专家对具有习惯用语特性的句子进行训练,将习惯用语结合到 BART 中取得了比基线模型 (BART) 更好的性能,包括在嵌入聚类方面提高了 0.19 分的同质化得分和在习惯用语处理任务中提高了高达 25% 的序列准确性,表明此方法能够解决习惯用语在自动化自然语言处理和语言模型中带来的挑战。
Jul, 2022
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
Oct, 2021
本篇文章研究了一种新的文本生成应用 —— 成语句子生成,通过使用神经模型和心理语言学理论,该文章提出一种有效转化直接字面短语到相应成语短语的方法,该方法在新建数据集上表现突出,超过其他文本生成竞争基准模型。
Apr, 2021
该论文提出了一种从非标记的单语语料库中学习的重述模型,通过在重述识别,生成和训练增强方面与基于机器翻译的方法进行比较,发现单语重述在所有场景中均优于无监督翻译。
May, 2019
从双语语料中直接学习释义句子嵌入的模型和方法,有效消除创建释义文本体的耗时环节。进一步地,该模型可用于跨语言任务,其性能优于且比最先进的复杂基线算法快几个数量级。
Sep, 2019