OptoGPT:光学多层薄膜结构反向设计的基础模型
VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023
我们介绍了一种名为 GraphGPT 的自我监督建模方法,该方法通过将图或抽样子图转化为表示节点、边和属性的可逆令牌序列,并使用欧拉路径优先进行预训练,最后通过监督学习任务进行微调,该模型在大规模分子数据集 PCQM4Mv2、蛋白质相互作用数据集 ogbl-ppa 以及开放图基准数据集 ogbn-proteins 上取得了接近或优于现有方法的结果,并且能够训练超过 400M 个参数的 GraphGPT,具有一致提升的性能,这超出了 GNN 和先前的图变换模型的能力。
Dec, 2023
本文综述了技术优化变压器网络推断的技术,包括知识蒸馏,修剪,量化,神经架构搜索和轻量级网络设计,以及硬件级优化技术和设计新型硬件加速器,可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。
Jul, 2023
本研究引入了三种变体(ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT)来修改解码器专用的 Transformer 架构,这些变体在代码生成任务中取得了可比较的性能,同时具有模型尺寸较小和训练时间更快的优势。
Apr, 2024
我们呈现了 Open Pre-trained Transformers (OPT),一个解码器型的预训练 transformers 套件,范围从 125M 到 175B 个参数,这些我们希望与感兴趣的研究人员完全和负责任地分享。 我们展示了 OPT-175B 与 GPT-3 相媲美,同时仅需要 1/7 的碳足迹进行开发。
May, 2022
提出了 PointGPT 方法来扩展 GPT 模型到点云中进行自回归生成任务的预训练,其通过多个点序列来实现学习潜在的表示,并在各种下游任务中实现了最先进的性能,特别是在 few-shot 学习方面也产生了新的 state-of-the-art 结果。
May, 2023
利用基于语言模型的灵活深度学习策略,基于一个完全基于提示的模型,将 transformer 和图卷积架构集成到因果多头图机制中,实现一个生成预训练模型,用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务,并可用于设计具有这些特性的蛋白质,这个模型展现了多任务和协同作用的应用价值。
May, 2023
本文提出了一种名为 SparseGPT 的新型剪枝方法,能够高效、准确地应用于海量的 GPT 模型,实现一次性稀疏化至少 50%,并在几乎不影响困惑度的情况下,将最大可用的开源模型 OPT-175B 和 BLOOM-176B 稀疏化至 60%。
Jan, 2023
本研究提出了 GPTQ 一种新的一次性量化方法,可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿,每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性,在单个 GPU 内执行 1750 亿参数模型,快于使用 FP16 格式的 GPU,且可提供 3.25 倍至 4.5 倍的推理加速度。
Oct, 2022