学习一种意识到形式的日语句子表征
本文提出使用树状结构的语义表示来改进对话系统中基于任务的自然语言生成问题,并介绍了一个挑战性的数据集,并展示了基于此表示的编码方法以提高语义正确性的结果。
Jun, 2019
训练多任务自动编码器进行语言任务,分析学习到的句子隐藏表示。加入翻译和词性解码器时,表示将显着改变。使用的解码器越多,模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构,得出很多有可识别句法结构的伪英语句子。最后,我们指出了模型的一个有意思的特性:两个句子之间的差分向量可以添加到第三个具有类似特征的句子中,以有意义的方式改变它。
Jan, 2018
通过增加一个新的目标,明确指出输入中的标签符号空间,并通过添加 [MASK] 符号来预测标签类别,以此来建立标签符号空间与句子符号空间之间的连接,并通过相邻表示的正则化来进一步指导传播,从而为有监督学习任务学习出表达丰富的句子表示,这样的模型能够在仅调整了冻结预训练模型的 5%的额外参数的情况下,实现可比的分类结果和强大的表达能力。
May, 2022
该研究提出了 COMPSITION 模型,它是 Seq2Seq 模型的一个扩展,旨在通过引入一个复合层来适当地学习不同编码器层的表示,以生成传递到不同解码器层的不同键和值,从而在两个现实基准上取得了有竞争力的甚至是最先进的结果。
May, 2023
通过视觉表征学习方法及无监督学习,我们提出了一种对文本进行语义学习的框架,借鉴认知科学和语言学的概念,利用错别字和词序混排等方法进行文本扰动,实现对文本的连续感知,并通过大规模无监督主题对齐训练和自然语言推理监督,达到与现有自然语言处理方法相当的语义文本相似度性能,展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。
Feb, 2024
本研究提出了一种基于注意力增强的编码器 - 解码器模型的通用方法,旨在消除传统方法所需的高质量词汇表、手工构建的模板和语言特征等问题,并可在不同领域和意义表示之间进行易于调整的转化,实验结果表明,该方法在不使用手工特征的情况下表现出了较强的竞争力。
Jan, 2016
本文提出了一种基于短语重构的生成式自监督学习目标,从而在获得上下文化标记级别表示的同时,有效获取句子级别表示,在句子结构的建模上进行了精细的设计,实验结果表明,该方法在语义检索和重排序任务上超越当前最先进的对比方法。
Oct, 2022
本文提出一种基于神经网络的生成模型,使用两个潜变量来表征句子的句法和语义,并通过训练多个损失函数来实现更好的语义和句法表征的分离,将其应用于句子相似性任务中,并发现该模型的语义和句法表征性能均最优且最为分离。
Apr, 2019
本文提出了一种基于源输入逐步自适应重编码的 sequence-to-sequence 模型扩展,以此来鼓励解开编码时存在的混淆状态。最终实验结果表明,这个扩展能够提供更好的解释性和推广性。
Oct, 2021
介绍了一种适用于高级自然语言处理的句子向量编码框架,该框架可以从编码器 - 解码器模型中提取具有相似向量表示的常见语义信息的句子 latents 表示。我们将句子表示的应用用于两个不同的任务 -- 句子复述和段落摘要,使其适用于常用的循环框架处理文本。实验结果有助于深入了解向量表示适用于高级语言嵌入。
Sep, 2018