本研究提出了一种新颖的句子简化方法,使用基于语义的方法进行句子拆分,不需要手动编写规则或训练语料库,研究表明这个无监督框架与四个最先进的监督系统竞争力相当,并且我们提出的基于语义的方法能够有效地处理句子拆分。
Jul, 2015
本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架,由共享编码器和一对注意解码器组成,并通过基于鉴别和去噪的损失进行简化知识的获取,并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析(包括定量和定性的人类评估)表明,所提出的模型可以在词汇和句法两个级别上进行文本简化,竞争现有的监督方法。此外,增加几个标记的对也进一步提高了性能。
Oct, 2018
我们提出了一种新的迭代式基于编辑的无监督句子简化方法,其模型通过包括流畅性、简洁性和意义保持在内的评分函数进行指导,并在复杂句子上迭代执行单词和短语级别的编辑。与之前的方法相比,我们的模型不需要并行的训练集,但更可控和可解释。对 Newsela 和 WikiLarge 数据集的实验表明,我们的方法几乎与最先进的监督方法一样有效。
Jun, 2020
该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统,这是一个完整的神经管道系统,可以将原始文本作为输入,并执行共享任务所需的所有任务,从分词和句子分割到词性标注和依赖关系解析,并通过广泛的消融研究展示了不同的模型组件的有效性。
Jan, 2019
本论文提出了一种基于自动语义分析器的简单有效的句子分割算法,并通过神经机器翻译进行进一步微调的简化操作,其中采用语义分析为基础的分割方式可以有效地解决以往机器翻译的过于保守的问题,经过广泛的自动化和人工评估,该方法在词汇和结构简化方面表现优异。
本文介绍了一种新的方法 SSUD,通过利用语法关系的一个属性 —— 语法替换性,不需要监督下拉金标准解析,就能诱导出语法结构,从而帮助理解大型预训练语言模型(LLMs)的句法能力,提高依赖分析任务的定量和定性效果。
Nov, 2022
本文介绍了一种文本简化方法,该方法旨在改善最新的开放关系提取(Open Relation Extraction)系统的性能。使用一组基于句法的转换规则对单个句子进行预处理,以便用于之后的 Open RE 系统处理,从而解决了当前开放关系提取方法对于句法复杂句子的挑战。
Mar, 2017
本研究使用 LSTM 神经网络对句法解析器进行扩展,使其能够训练并生成图形结构的语义依存关系,并获得了最新的高性能表现。
Jul, 2018
该研究提出了一种两阶段的语义解析框架,第一阶段利用无监督的语义模型将未标记的自然语言转化为规范化语句,第二阶段使用自然语言解析器解析输出结果得到目标逻辑形式,该训练过程被分成了预训练和循环学习两个阶段,通过三项定制的自监督任务激活无监督的语义模型,实验结果表明该框架是有效的且与监督式训练相兼容。
May, 2020
本研究提出了一种基于事实信息的控制简化方法,使用句法依赖分析将复合和复杂句子拆分为简化句子的集合,并用统计方法度量了句子的句法复杂度,通过本方法,可在不失信息的情况下简化语言,用于知识图谱中三元组的提取与构建。
Apr, 2023