概率变换器:一种用于上下文词表示的概率依赖模型
使用语义组合性建模的透明、可解释和语言学动机策略,模拟词的上下文意义编码,并且与复杂神经结构下的黑盒模型相比,显示其与语言学动机模型在给定语义任务中的竞争力。
Dec, 2023
本研究提出了一种基于 transformers 的新方法,通过对不同级别单元的上下文化表示进行编码,动态捕捉对话依赖分析所需的信息,并将对话关系识别视为序列标记任务
May, 2022
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程,并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性,结果表明我们的方法具有更好的表现。最后,我们将该方法应用于神经机器翻译模型,并展示了生成人类相似的源 - 目标对齐结果的能力。
May, 2023
本论文研究了通过将句法信息与深度学习模型相结合,提高自然语言处理任务的性能表现,对多特征的语法 - Transformer 进行了测试,发现在完整数据集和部分数据集中,BLEU 得分都有明显提升,同时,在 GLUE 基准测试中,语法嵌入的 BERT 微调在几个下游任务中表现优于基线。
Nov, 2019
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
本文定义了能够为句子产生分布的概率模型,最佳表现的模型将每个单词视为线性转换算子应用于多变量高斯分布,并通过从定义的模型中进行训练,演示了实现句子特定性的自然方式。虽然我们的模型是整体最佳表现的,但通过句子向量的范数表示来表示句子的特异性的简单架构也能够表现句子的特异性。质性分析表明,我们的概率模型捕获了句子涵盖并提供了分析单词特异性和精确性的方法。
May, 2020
通过在 Transformer 语言模型上进行一系列实验,我们发现对于当前 Transformer 语言模型的低困惑度,长上下文至关重要,但上下文的详细句法和命题内容并不重要,且在中长程上下文中,包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15%的可用信息。
Jun, 2021
transformer architecture offers a novel perspective on the relationship between context and meaning, positioning itself within the contextualism and polysemy debates.
Apr, 2024