OptoGPT：光学多层薄膜结构反向设计的基础模型

Apr, 2023

OptoGPT：光学多层薄膜结构反向设计的基础模型

OptoGPT: A Foundation Model for Inverse Design in Optical Multilayer Thin Film Structures

Taigao Ma, Haozhu Wang, L. Jay Guo

TL;DR提出 OptoGPT 作为光学多层薄膜结构反向设计领域的基础模型，该模型是一种解码器 transformer，可以基于特定的光谱目标自回归地生成设计。该模型可以对材料、厚度进行选择，实现高效设计，输出多样化设计，实现了自定义约束的无缝集成。

Abstract

foundation models are large machine learning models that can tackle various downstream tasks once trained on diverse and large-scale data, leading research trends in natural language processing, →

foundation models opto generative pretrained transformer multilayer thin film structure inverse design natural language processing computer vision

发现论文，激发创造

VL-GPT：用于视觉与语言理解与生成的生成式预训练 Transformer 模型

VL-GPT 是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT 在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

GraphGPT：使用生成式预训练 Transformer 进行图学习

我们介绍了一种名为 GraphGPT 的自我监督建模方法，该方法通过将图或抽样子图转化为表示节点、边和属性的可逆令牌序列，并使用欧拉路径优先进行预训练，最后通过监督学习任务进行微调，该模型在大规模分子数据集 PCQM4Mv2、蛋白质相互作用数据集 ogbl-ppa 以及开放图基准数据集 ogbn-proteins 上取得了接近或优于现有方法的结果，并且能够训练超过 400M 个参数的 GraphGPT，具有一致提升的性能，这超出了 GNN 和先前的图变换模型的能力。

Dec, 2023

优化 Transformer 推理技术综述

本文综述了技术优化变压器网络推断的技术，包括知识蒸馏，修剪，量化，神经架构搜索和轻量级网络设计，以及硬件级优化技术和设计新型硬件加速器，可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。

Jul, 2023

朝着更小、更快的只解码 Transformer：架构变体及其影响

本研究引入了三种变体（ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT）来修改解码器专用的 Transformer 架构，这些变体在代码生成任务中取得了可比较的性能，同时具有模型尺寸较小和训练时间更快的优势。

Apr, 2024

OPT：开放预训练 Transformer 语言模型

我们呈现了 Open Pre-trained Transformers (OPT)，一个解码器型的预训练 transformers 套件，范围从 125M 到 175B 个参数，这些我们希望与感兴趣的研究人员完全和负责任地分享。我们展示了 OPT-175B 与 GPT-3 相媲美，同时仅需要 1/7 的碳足迹进行开发。

May, 2022

PointGPT：基于点云的自回归生成预训练

提出了 PointGPT 方法来扩展 GPT 模型到点云中进行自回归生成任务的预训练，其通过多个点序列来实现学习潜在的表示，并在各种下游任务中实现了最先进的性能，特别是在 few-shot 学习方面也产生了新的 state-of-the-art 结果。

May, 2023

应用生成预训练自回归转换器图神经网络分析和发现新型蛋白质

利用基于语言模型的灵活深度学习策略，基于一个完全基于提示的模型，将 transformer 和图卷积架构集成到因果多头图机制中，实现一个生成预训练模型，用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务，并可用于设计具有这些特性的蛋白质，这个模型展现了多任务和协同作用的应用价值。

May, 2023

SparseGPT：一次修剪即可在大型语言模型上进行精准压缩

本文提出了一种名为 SparseGPT 的新型剪枝方法，能够高效、准确地应用于海量的 GPT 模型，实现一次性稀疏化至少 50％，并在几乎不影响困惑度的情况下，将最大可用的开源模型 OPT-175B 和 BLOOM-176B 稀疏化至 60％。

Jan, 2023

GPTQ: 针对生成式预训练变换器的准确后训练量化

本研究提出了 GPTQ 一种新的一次性量化方法，可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿，每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性，在单个 GPU 内执行 1750 亿参数模型，快于使用 FP16 格式的 GPU，且可提供 3.25 倍至 4.5 倍的推理加速度。

Oct, 2022

文本属性图上的纯 Transformer 预训练框架

图序列预训练框架 GSPT 利用统一的文本表示，在图领域中取得了显著的可转移性和实证成功。

Jun, 2024