PeaTMOSS:开源软件中挖掘预训练模型
这篇论文介绍了 PeaTMOSS 数据集,它包含 281,638 个预训练模型的元数据和详细快照,以及 28,575 个使用这些模型的 GitHub 开源软件仓库。此外,该数据集还包括 15,129 个 GitHub 仓库到 2,530 个预训练模型的映射。通过对数据集的分析,揭示了预训练模型供应链的摘要统计、模型包文档的常见缺陷和软件许可证不一致性等问题,为未来的研究提供了丰富的机会。
Feb, 2024
本文是关于使用预训练模型的实践和挑战,通过对 Hugging Face 生态系统中从业者的访谈和系统化的测量,确定了模型重用的实践和决策制定过程,并提出了模型重用的有用属性和挑战,以及对深度学习生态系统自动化地测量有用属性和潜在攻击的未来方向进行了展望。
Mar, 2023
本综述对时序预训练模型进行了全面回顾,介绍了典型的深度学习模型,总结了有监督、无监督和自监督时间序列预训练模型,分析了迁移学习策略、基于 Transformer 的模型和代表性 TS-PTMs 的优缺点,指出了未来的研究方向。
May, 2023
模型复用方面,我们通过一项综合的混合方法实证研究,通过关注讨论论坛和 HuggingFace 模型中心,提出了一种挑战和益处的分类法,并进行了定量研究以追踪模型类型趋势和模型文档的演变。
Jan, 2024
数据集精炼(DD)是一种将大规模原始数据集的知识封装到小型合成数据集中进行高效训练的突出技术。与此同时,预训练模型(PTMs)作为知识库具有从原始数据集中获取的广泛信息。我们通过初步实验验证了 PTMs 对 DD 的贡献,然后系统研究了 PTMs 的不同选项,包括初始化参数、模型架构、训练周期和领域知识,揭示了:1)增加模型多样性可以提高合成数据集的性能;2)次优模型在某些情况下可以辅助 DD 并超过训练充分的模型;3)DD 并不一定需要特定的领域 PTMs,但合理的领域匹配至关重要。最后,通过选择最佳选项,我们显著提高了基线 DD 方法的跨体系结构泛化能力。我们希望我们的工作能帮助研究人员开发更好的 DD 技术。
Oct, 2023
本文提出了一种新颖的多视图预训练模型(MV-PTM),用于编码源代码的序列和多类型结构信息,并利用对比学习增强代码表示,实验结果表明 MV-PTM 的优越性,特别是在 F1 分数方面,优于 GraphCodeBERT 平均 3.36%。
Aug, 2022
在本研究中,我们首次对预训练模型(PTM)的命名规范和相关的命名缺陷进行了研究,通过开发新的自动命名评估技术和算法,我们揭示了 PTM 领域中的命名规范,并将其作为研究与实践关系的信号;我们展望未来的工作是通过利用 PTM 的元特征来支持模型搜索和重用的经验研究。
Oct, 2023