语言的神经和符号表示的相关性
论文介绍了一种称为 RSA 的技术,可以比较不同测量模式下(例如 fMRI、电生理学和行为学)的活动模式,展示了 RSA 的实用性,并通过眼动数据建立了先前未知的预先训练的语言编码器和人类处理难度之间的对应关系,展示了它作为神经模型可解释性工具箱的潜力。
Sep, 2019
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019
本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现,并研究了两个因素对分析结果的影响,最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。
Apr, 2020
该论文定义和应用了一种直观的分析神经语言模型的方法 —— 表征稳定性分析(ReStA),并使用 ReStA 和 RSA 对四个神经语言模型进行了研究,评估了它们的内部表征对先前上下文的敏感性,揭示了深层语言处理的位置,并探讨了 fMRI 大脑成像数据中的语言神经过程。
Jun, 2019
本文提出通过使用 RSA 方法评估不同任务和其特定模型之间的关系来实现任务分类,进而用少量图像和预训练模型来展示此方法在生成 Taskonomy 数据集的任务分类方面的有效性和效率,并展示了在与 Pascal VOC 语义分割等任务中转移学习表现上 RSA 的关系,结果表明在相似性得分较高的任务上训练的模型具有更好的迁移学习表现。
Apr, 2019
本文提出了一种使用树核心学习支持向量机模型,在神经网络中注入结构表示,以解决关系任务的方法,例如问题相似性,并通过大规模语料库预测标签和预训练 NNs,结果表明使用我们的方法训练的 NNs 可以学习更精确的模型.
Jun, 2018
本文利用相似性比较方法研究语言代码模型的语义基础,并通过 IBM CodeNet 数据集研究 CodeBERT 的语义基础。实验表明,现有的预训练方法并未引入语言代码模型的语义基础,而是集中优化基于形式的模式,而进行少量的语义相关任务的微调,可显著提高 CodeBERT 的语义基础。使用双模态输入比单模态输入更好地提高了 CodeBERT 的语义基础,并具有更高样本效率。最后,实验表明,CodeBERT 能够稳健地区分语义上正确和不正确的代码。
Jul, 2022
探索了拓扑脑表示相似性分析(tRSA),一种推广了脑表示相似性分析(RSA)的几何与拓扑摘要统计的家族,该方法可用于表征脑表示的拓扑特征并在噪音和个体变异性方面具有鲁棒性,在模拟和功能性磁共振成像(fMRI)数据上进行了评估。
Sep, 2023
本文提出了一种基于模式的新模型,神经潜在关系分析(NLRA),旨在捕捉向量空间中词汇关系的语义,可以泛化词对和词汇 - 语法模式的共现,同时解决了传统基于模式的模型中遇到的严重数据稀疏性问题,实验结果表明 NLRA 在测量关系相似度方面的表现优于先前的基于模式的模型,同时与矢量偏移模型相结合时可以达到与利用其他语义关系数据的现有模型相当的性能。
Sep, 2018
本文探讨了语言图表示在理论上能否 complement 并提高神经语言建模的能力。通过集成一个预训练的 Transformer 和七种不同形式主义的 ground-truth 图,研究发现,总体而言,语义组成结构对于语言建模的性能最有用,超越了句法组成结构以及句法和语义依存关系结构。此外,这种效应在不同的词性类别中差异很大。总之,我们的研究结果为神经符号语言建模带来了有前途的倾向,并邀请未来研究 quantifying 不同形式主义所做的设计选择。
Dec, 2021