PeaTMOSS：开源软件中挖掘预训练模型

Oct, 2023

PeaTMOSS：开源软件中挖掘预训练模型

PeaTMOSS: Mining Pre-Trained Models in Open-Source Software

Wenxin Jiang, Jason Jones, Jerin Yasmin, Nicholas Synovic, Rajeev Sashti...

TL;DR使用 PeaTMOSS 数据集，研究了深度学习模型在软件工程中的应用和挑战，该数据集包含大量预训练模型、开源软件仓库以及二者之间的映射。

Abstract

Developing and training deep learning models is expensive, so software engineers have begun to reuse pre-trained deep learning models (ptms

deep learning models pre-trained models software engineering peatmoss dataset ptms

发现论文，激发创造

PeaTMOSS: 开源软件中预训练模型的数据集和初步分析

这篇论文介绍了 PeaTMOSS 数据集，它包含 281,638 个预训练模型的元数据和详细快照，以及 28,575 个使用这些模型的 GitHub 开源软件仓库。此外，该数据集还包括 15,129 个 GitHub 仓库到 2,530 个预训练模型的映射。通过对数据集的分析，揭示了预训练模型供应链的摘要统计、模型包文档的常见缺陷和软件许可证不一致性等问题，为未来的研究提供了丰富的机会。

Feb, 2024

Hugging Face 深度学习模型注册表中预训练模型重用的实证研究

本文是关于使用预训练模型的实践和挑战，通过对 Hugging Face 生态系统中从业者的访谈和系统化的测量，确定了模型重用的实践和决策制定过程，并提出了模型重用的有用属性和挑战，以及对深度学习生态系统自动化地测量有用属性和潜在攻击的未来方向进行了展望。

Mar, 2023

预训练模型：过去、现在和未来

本文全面介绍了预训练模型的历史、最新成果以及未来的研究方向，旨在推进预训练模型应用于下游任务的发展。

Jun, 2021

时间序列预训练模型调研

本综述对时序预训练模型进行了全面回顾，介绍了典型的深度学习模型，总结了有监督、无监督和自监督时间序列预训练模型，分析了迁移学习策略、基于 Transformer 的模型和代表性 TS-PTMs 的优缺点，指出了未来的研究方向。

May, 2023

软件工程任务中参数高效微调的综合评估

基于预训练模型的参数高效调整方法在软件工程领域的效果与效率的全面评估研究。

Dec, 2023

HuggingFace 社区中深度学习模型重用的挑战、利益与趋势

模型复用方面，我们通过一项综合的混合方法实证研究，通过关注讨论论坛和 HuggingFace 模型中心，提出了一种挑战和益处的分类法，并进行了定量研究以追踪模型类型趋势和模型文档的演变。

Jan, 2024

预训练模型是否能在数据集精炼中提供帮助？

数据集精炼（DD）是一种将大规模原始数据集的知识封装到小型合成数据集中进行高效训练的突出技术。与此同时，预训练模型（PTMs）作为知识库具有从原始数据集中获取的广泛信息。我们通过初步实验验证了 PTMs 对 DD 的贡献，然后系统研究了 PTMs 的不同选项，包括初始化参数、模型架构、训练周期和领域知识，揭示了：1）增加模型多样性可以提高合成数据集的性能；2）次优模型在某些情况下可以辅助 DD 并超过训练充分的模型；3）DD 并不一定需要特定的领域 PTMs，但合理的领域匹配至关重要。最后，通过选择最佳选项，我们显著提高了基线 DD 方法的跨体系结构泛化能力。我们希望我们的工作能帮助研究人员开发更好的 DD 技术。

Oct, 2023

代码漏洞识别的多视角预训练模型

本文提出了一种新颖的多视图预训练模型（MV-PTM），用于编码源代码的序列和多类型结构信息，并利用对比学习增强代码表示，实验结果表明 MV-PTM 的优越性，特别是在 F1 分数方面，优于 GraphCodeBERT 平均 3.36%。

Aug, 2022

深度学习与软件工程：源代码预训练模型调查

介绍了深度学习在软件工程中的应用，着重讨论了源代码的预训练模型，并展望了未来的研究方向。

May, 2022

探索 Hugging Face 和其他模型中预训练深度学习模型的命名规范（以及缺陷）

在本研究中，我们首次对预训练模型（PTM）的命名规范和相关的命名缺陷进行了研究，通过开发新的自动命名评估技术和算法，我们揭示了 PTM 领域中的命名规范，并将其作为研究与实践关系的信号；我们展望未来的工作是通过利用 PTM 的元特征来支持模型搜索和重用的经验研究。

Oct, 2023