研究比较四种最近的模型对句子结构的编码情况,发现语言模型和翻译模型训练出的模型对句法现象具有强大的表现,但对语义任务的改进相对较小。
May, 2019
本文通过设计一种探针模型,研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度,并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果,而文本上下文在该过程中发挥了重要作用,但比起人类,具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究,进一步地理解和改善语言模型的视觉能力。
May, 2020
本研究分析了遮罩语言模型(如 BERT)如何学习上下文表示,提出了 TACO 作为一种直接对全局语义进行建模的表示学习方法,通过在 GLUE 基准测试中的实验,证明了 TACO 相比现有的 MLMs 可以提高 5 倍的速度和 1.2 点的平均准确率。
Apr, 2022
本文介绍了一种名为 'in-context probing' 的方法,能够更好地提高大型语言模型在分类任务中的鲁棒性,并证明了这种方法在与提供的指令变化较大时更具可靠性。
May, 2023
通过研究 BERT 中的单词上下文含义的量化,我们展示了预训练语言模型如何解释单词在上下文中的重要性,结果显示顶层语义表示对于任务的推断非常准确,底层语义表示更具可转移性。
Apr, 2020
本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置,并提出一个可行的变分逼近方法,用于求解对数似然函数计算,结果表明这个模型能够获得更好的内部探测精度,并且在跨语言的形态句法方面表现良好。
Jan, 2022
该研究旨在通过贝叶斯框架度量文本中的归纳偏差量,并通过对 Contextual embeddings 的探究,比较了 fastText 和 BERT 在不同任务上的性能表现差异。
Oct, 2021
本研究基于任务版本的概念,通过发展一种启发式工具 DirectProbe 直接研究表示物的几何结构,揭示了嵌入空间如何表示标签,并预测了分类器的性能。
Apr, 2021
本文提出了一种新的基于上下文表示扰动评分的图表法提取已屏蔽语言模型中的句法树的方法,此方法在英语和八种语言的数据集上均表现出优异性能,能替代无监督语法分析方法。
Jun, 2023
为了解决 BERT 模型在预训练和推理之间存在的差异,我们从单词概率分布的角度研究预训练和推理的上下文表示,并发现 BERT 在预训练中存在忽略上下文单词相似性的风险。通过引入辅助注释正则化器,我们提出了一个增强单词语义相似性的 GR-BERT 预训练模型,并设计了两种体系结构进行评估和实验,结果表明该模型较之前模型在词汇替换和文本语义任务中达到了新的最优效果。
May, 2022