基于神经机器翻译的二进制代码相似性比较：超越函数对比

Aug, 2018

基于神经机器翻译的二进制代码相似性比较：超越函数对比

Neural Machine Translation Inspired Binary Code Similarity Comparison beyond Function Pairs

Fei Zuo, Xiaopeng Li, Patrick Young, Lannan Luo, Qiang Zeng...

TL;DR该研究展示了如何将自然语言处理的思想和技术应用于大规模的二进制代码分析，提出了两个重要的代码相似性比较问题，并通过内部实验验证了所提出的方法的优越性。

Abstract

binary code analysis allows analyzing binary code without having access to the corresponding source code. A binary, after disassembly, is expressed in an assembly language. This inspires us to approach binary analysis by leveraging ideas and techniques from →

binary code analysis natural language processing code similarity comparison vulnerability discovery code plagiarism detection

发现论文，激发创造

使用中间表示进行跨语言二进制源码匹配

该篇论文提出了解决不同编程语言下的二进制和源代码匹配问题的新数据集，以及基于 Transformer 神经网络的 XLIR 方法，并在多项实验验证了其显著优于现有模型的有效性。

Jan, 2022

基于神经网络的图嵌入用于跨平台二进制代码相似性检测

提出了一种基于神经网络的方法来计算二进制函数的编码，并通过测量两个函数之间编码的距离来有效地检测二进制代码的相似性，称为 Gemini，将生成时间从 1 周减少到 30 分钟到 10 小时，并在现实世界的案例中展示了 Gemini 比现有技术更好地识别易受攻击的固件图像的能力，是一种成功应用深度学习解决计算机安全问题的方法。

Aug, 2017

利用人工智能进行二进制代码理解

利用大规模源代码语料库中的领域知识（例如变量名称和注释）构建人工智能模型，以捕获二进制代码的可操作性，以此来帮助人类理解二进制代码，并使用人类理解的度量标准来评估模型的性能。

Oct, 2022

训练神经网络解释二进制

在这项工作中，我们开始探讨使用深度神经网络对二进制代码理解进行训练的可能性。具体而言，网络将以直接从二进制中派生的特征作为输入，并输出英文功能描述，以帮助逆向工程师调查闭源软件的功能，无论是恶意的还是良性的。我们发现嵌入距离相关性（EDC）测试对于评估数据集值非常有诊断能力，表明我们收集的数据集和一些现有的开源数据集质量较低。

Apr, 2024

通过二进制代码预测的神经机器翻译

本文提出了一种新的神经机器翻译系统输出层计算方法，基于预测每个单词的二进制码，可以在最佳情况下将输出层的计算时间 / 内存需求缩小到对数级别。此外，本文还介绍了使用纠错码和结合 softmax 和二进制码来提高鲁棒性的两种高级方法。两个英日双向翻译实验表明，所提出的模型在接近 softmax 的 BLEU 分数的同时，将内存使用率降低到不到 1/10，CPU 解码速度提高了 5 到 10 倍。

Apr, 2017

概念语言相似性的研究：比较与评估

本研究旨在将语言学的特性纳入到自然语言处理（NLP）中，通过基于基本概念的表示来定义语言之间的相似性并将其应用于二元分类任务中的低资源语言研究。

May, 2023

CLAP: 利用自然语言监督学习可转移的二进制码表示

利用对二进制代码进行对比学习，提高其在迁移学习中的性能，通过对齐二进制代码和自然语言解释来生成更好的嵌入表示，而无需特定任务的训练。

Feb, 2024

FASER: 通过中间表示进行二进制代码相似性搜索

通过结合长文档转换器和中间表示的使用，本文提出了一种能够进行跨体系结构功能搜索的模型，无需手动特征工程、预训练或动态分析步骤。我们将该方法与一系列基准方法进行了对比，在一般函数搜索任务和有针对性的漏洞搜索任务中，我们的方法表现出强大的性能，优于所有基准方法。

Oct, 2023

语义代码搜索的多角度架构

该研究提出了一种多角度跨语言神经框架用于代码 - 文本匹配，具备全球和本地相似性，结果比以往单映射空间的方法更好地完成了这一任务。

May, 2020

关于代码到代码搜索的语义相似性对比学习

本文介绍了一种新的代码到代码搜索技术，通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。我们展示了第一个能够在训练期间编码动态运行时信息的代码搜索方法，在推断时间无需执行搜索语料库或搜索查询，同时还是第一个训练正负参考样本的代码搜索技术。我们通过一系列研究验证了我们方法的有效性，并展示了增强 LLMs 执行跨语言代码到代码搜索的能力。我们的评估表明，我们的方法的效果在各种模型架构和编程语言中都是一致的。此外，我们的消融研究表明，即使在训练过程中只有一个正面和负面参考样本，也会产生相当大的性能提高，这证明了相似和不同的参考是代码搜索的重要部分。重要的是，我们展示了精心制作的、经过调整的模型在性能上始终优于未调整的更大的现代 LLMs，即使是在增强最大可用 LLMs 时也是如此，这凸显了开源模型的重要性。为了确保我们研究的可重复性和可扩展性，我们介绍了一个名为 Cosco 的开源实现和培训过程

May, 2023