Par4Sim -- 文本简化的自适应改写技术
提出了一种新型的混合方法,它结合了基于语言学的分裂和删除规则以及神经语言转换模型来进行不同的简化操作,并通过引入新的数据增强方法来提高模型的语言转换能力。通过自动和手动评估,证明该模型在对比现有系统时,产生了更多的语言转换,并且可以控制所应用的每个简化操作的程度。
Oct, 2020
本文提出了一种基于序列到序列的句子简化模型,通过多任务学习及时改进其包含性和释义能力。文章还介绍了一种新的多层软共享方法,以及一种动态学习的多臂赌博机训练方法,实验结果表明我们的模型在语义相关任务上的表现优于竞争模型。
Jun, 2018
该研究提出了一种基于改写生成的方法,可以减少创建新对话代理所需要的时间和成本,同时提高其性能,使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力,有助于在组织范围内规模化部署这项技术。
Apr, 2022
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
本文提出了 Para-Ref,一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法,并在机器翻译、文本摘要和图像标题等任务中的实验结果表明,该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。
May, 2023
本研究提出了一种基于多层和多头注意力架构的新颖模型,并提出了两种集成 Simple PPDB 的创新方法,实现对句子的简化。该研究表明,集成 Simple PPDB 的模型在句子简化中的表现优于现有基准模型,并能够准确定位并选择更精确的简化规则。
Oct, 2018
本文利用基于人类判断的词汇复杂性词典和基于高斯的特征向量化层提出了一种新的神经可读性排名模型,用于衡量任何给定单词或短语的复杂性,并通过将该模型应用于 Paraphrase 数据库(PPDB)生成了超过 1000 万个简化的复述规则。实验证明,我们的模型在不同的词汇简化任务和评估数据集上表现优于现有的最佳系统。
Oct, 2018