BotHawk:开源软件项目中的机器人检测方法
研究为了解决检测新型社交机器人的验证问题,提出一种基于专用分类器的超级学习方法,该方法在新数据集中将F1分数提高了56%,且新机器人行为可使用更少标记示例进行学习。
Jun, 2020
通过对AI程序员GitHub Copilot生成代码中的高危漏洞相关场景的系统研究,我们发现了40%的代码是存在漏洞的,这造成了对代码安全性的重大担忧。
Aug, 2021
本研究基于真实数据集构建了行为序列,从中提取关键特征,分析了社交机器人和真实用户之间的差异性,提出了一种新型社交机器人检测系统 - BotShape,通过行为序列和特征分类器自动捕获机器人。该系统在对比其他研究后表现更好,通过提供重要的行为特征可提高大多数方法的性能。评测结果表明,BotShape检测系统在各种分类器中的平均准确率为98.52%,平均f1-score为96.65%。
Mar, 2023
回顾20个大型热门开源项目的经验研究发现,虽然Stale bot用于处理未解决的Pull Requests可以提高项目的效率,但过于依赖Stale bot可能导致贡献者减少和社区参与度下降。
May, 2023
开源AI软件项目的安全性和测量方法是关键,通过使用代码所有权和时间度量,该研究证实高级所有权与漏洞减少呈正相关,并开发了基于Python的命令行应用程序来评估和基准测试项目。
Dec, 2023
本论文通过引入公平实验设计的一组约束条件和AUT度量,提出了解决恶意软件检测任务中实验偏差的方法,并提供了一个能够增强分类器性能的算法,以及一个用于实际分类器比较的开源框架TESSERACT。研究发现以前的研究存在偏差,并通过适时调整的多种策略来延缓性能下降,从而实现更稳定和更好的性能。
Feb, 2024
通过大型语言模型的实证研究,我们提出了SocketAI Scanner,使用迭代自我完善和零-shot角色扮演Thought (CoT)提示技术的多阶段决策器恶意软件检测工作流,来协助安全分析人员在npm生态系统中检测潜在的恶意软件。我们的研究结果表明,GPT模型在误报率低的情况下具有良好的性能,对静态分析工具的基准比较显示出明显的改进。GPT-3模型的精确度和F1得分分别达到了91%和94%,而GPT-4模型在精确度(99%)和F1得分(97%)方面表现出卓越的性能。
Mar, 2024
本研究解决了现有软件安全漏洞数据集小、更新繁琐以及缺乏关键特征的问题。提出了ARVO,一个自动化更新的可复现漏洞数据集,通过对Google OSS-Fuzz发现的C/C++项目的漏洞进行复现,提供了超过5000个内存漏洞的详细信息。研究表明,ARVO在精确定位修复方面优于Google的OSV复现工作,并在未来研究中展现了其价值。
Aug, 2024
本研究探讨了生成性人工智能对开源开发者参与和表现的影响,尤其是GitHub Copilot的作用。通过分析数据集,我们发现Copilot显著提高项目生产力6.5%,同时揭示了其背后的机制。然而,集成时间增加41.6%,说明潜在的协调成本上升。研究表明,核心开发者在使用Copilot时获得更大的收益,而代码质量并未发生变化。
Oct, 2024