使用表征相似性分析探索代码语言模型中的语义基础

Jul, 2022

使用表征相似性分析探索代码语言模型中的语义基础

Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis

Shounak Naik, Rajaswa Patil, Swati Agarwal, Veeky Baths

TL;DR本文利用相似性比较方法研究语言代码模型的语义基础，并通过 IBM CodeNet 数据集研究 CodeBERT 的语义基础。实验表明，现有的预训练方法并未引入语言代码模型的语义基础，而是集中优化基于形式的模式，而进行少量的语义相关任务的微调，可显著提高 CodeBERT 的语义基础。使用双模态输入比单模态输入更好地提高了 CodeBERT 的语义基础，并具有更高样本效率。最后，实验表明，CodeBERT 能够稳健地区分语义上正确和不正确的代码。

Abstract

representational similarity analysis is a method from cognitive neuroscience, which helps in comparing representations from two different sources of data. In this paper, we propose using representational similarity anal

representational similarity analysis semantic grounding language models codebert ibm codenet dataset

发现论文，激发创造

语言的神经和符号表示的相关性

本文介绍了它们称为 RSA 和 TK 的两种基于表示相似性分析和树核的分析方法，这些方法可以直接量化神经激活模式编码的信息与句法树等符号结构所表示信息的相对强度，验证了这些方法对于具有明确定义语法和语义的简单合成语言的情况，然后将这些方法应用于将英语句子的神经表示与其从属树相关联。

May, 2019

神经代码搜索的多模态表征

本文介绍了一种基于树序列化方法和多模态学习模型的语义代码搜索技术，实验结果表明，这种技术可以有效提高代码搜索性能。同时提出衡量代码信息完整度的量化指标来辅助实验结果理解。

Jul, 2021

SBERT 研究意义表示：将句子嵌入分解为可解释的语义特征

该论文介绍了一种新的基于 semantically structured sentence BERT embeddings（S^3BERT）的方法，通过近似可解释的 AMR 图表特征的方法将句子嵌入分解为语义特征，并通过 SBERT 教师模型的相似度打分来约束分解学习过程，从而保持神经嵌入的效力和效率。

Jun, 2022

神经代码理解：可学习的代码语义表示

本文提出了一种学习代码语义的新颖处理技术，并将其应用于各种程序分析任务中，其中使用的 Embeddings 基于独立于源编程语言的代码的 IR，现有技术不足以强烈理解程序语义。

Jun, 2018

多语言表征中的语义漂移

本文介绍了一种比较多语言计算表示相互关系的方法，可以重建语言学家所假定的类似的分类树，同时提出了一种检测语言家族之间语义漂移的度量，并使用基于单词和句子的多语言模型进行了实验，结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。

Apr, 2019

用于评估问答模型的语义答案相似度

本论文提出了一种基于交叉编码器的语义答案相似度估计评估度量标准（SAS），与七种现有度量标准进行比较，并通过人类判断的语义相似性评估数据集检验其性能。结果表明，基于最近的 Transformer 模型的语义相似度度量标准与传统的词汇相似度度量标准在新创建的数据集和相关工作的一个数据集上的人类评价更加相关。通过语义相似性度量标准可以提高问答模型评测的准确性。

Aug, 2021

关于代码到代码搜索的语义相似性对比学习

本文介绍了一种新的代码到代码搜索技术，通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。我们展示了第一个能够在训练期间编码动态运行时信息的代码搜索方法，在推断时间无需执行搜索语料库或搜索查询，同时还是第一个训练正负参考样本的代码搜索技术。我们通过一系列研究验证了我们方法的有效性，并展示了增强 LLMs 执行跨语言代码到代码搜索的能力。我们的评估表明，我们的方法的效果在各种模型架构和编程语言中都是一致的。此外，我们的消融研究表明，即使在训练过程中只有一个正面和负面参考样本，也会产生相当大的性能提高，这证明了相似和不同的参考是代码搜索的重要部分。重要的是，我们展示了精心制作的、经过调整的模型在性能上始终优于未调整的更大的现代 LLMs，即使是在增强最大可用 LLMs 时也是如此，这凸显了开源模型的重要性。为了确保我们研究的可重复性和可扩展性，我们介绍了一个名为 Cosco 的开源实现和培训过程

May, 2023

自我监督的语音表征更加语音学而非语义学

本研究通过对自监督语音模型 (S3Ms) 的单词级别语言属性进行细致分析，发现 S3M 表示对于音韵相似性的相似度比语义相似性更高，并提出了对广泛使用的目标分类数据集进行语义能力评估的疑问。实验证明，即使只使用单词自身的信息，也能超越基于 S3M 的模型，在一些数据集上获得更高的性能，从而证实了研究结果，并暗示高分并不一定意味着语义内容的存在。

Jun, 2024

句子编码器表示的高阶比较

论文介绍了一种称为 RSA 的技术，可以比较不同测量模式下（例如 fMRI、电生理学和行为学）的活动模式，展示了 RSA 的实用性，并通过眼动数据建立了先前未知的预先训练的语言编码器和人类处理难度之间的对应关系，展示了它作为神经模型可解释性工具箱的潜力。

Sep, 2019

面向可计算验证的语言模型语义基础研究

本文提出了一种语义基础的语言模型方法，将语言模型嵌入到自编码器中，在保持语义解析器冻结的同时通过采样和训练提高了自动生成的文本的流畅度和语义准确性，使用 BLEU 分数和标准解析度量在 English WebNLG 3.0 数据集上进行实验，并通过人工评估验证了自动评估实验的结果。

Nov, 2022