Jan, 2023

将源代码预训练语言模型扩展至汇编代码反编译摘要

TL;DR本文研究了利用大型预先训练的源代码模型来对反编译二进制文件的函数进行自动摘要,建立了一个包含多种编译器优化的数据集 CAPYBARA,进一步生成了合成数据集来优化模型性能,并创造了 BinT5 模型,成功地用于反汇编二进制代码中。