σ-GPTs: 一种新的自回归模型方法

Apr, 2024

σ-GPTs: A New Approach to Autoregressive Models

Arnaud Pannatier, Evann Courdier, François Fleuret

TL;DR通过为输出添加位置编码，可以实时调节样本的顺序，从而提供优越的性能；该方法在不同领域进行评估，能够显著降低生成所需步骤数。

Abstract

autoregressive models, such as the GPT family, use a fixed order, usually left-to-right, to generate sequences. However, this is not a necessity. In this paper, we challenge this assumption and show that by simply adding a positional encoding for the output, this order can be modulated

autoregressive models positional encoding on-the-fly modulation sub-linear sampling generation efficiency

发现论文，激发创造

SketchGPT：基于自回归模型的素描生成与识别

我们提出了 SketchGPT，这是一个灵活的框架，使用序列到序列的自回归模型进行素描生成和完成，并进行了一个解释性案例研究用于素描识别。

May, 2024

RecycleGPT：一种带可循环模块的自回归语言模型

利用预先生成的模型状态进行回收，RecycleGPT 是一种生成式语言模型，具有快速解码速度，通过理论评估和实际测试，在保持高性能的同时实现了 1.4 倍加速，降低了推理延迟。

Aug, 2023

StockGPT：用于股票预测和交易的 GenAI 模型

本文介绍了 StockGPT，一种在美国股票每日收益历史数据上直接预训练的自回归 ' 数值 ' 模型。通过将每个收益系列视为标记序列，该模型在理解和预测高度复杂的股票收益动态方面表现出色。利用注意机制，StockGPT 自动学习预测未来收益的隐藏表示。在 2001 年至 2023 年的测试样本中，基于 StockGPT 预测的每日重新平衡的多空投资组合年收益为 119%，夏普比率为 6.5。基于 StockGPT 的投资组合完全解释了动量和长期 / 短期逆转现象，消除了手动构建基于价格的策略的需要，并涵盖了大多数领先的股市因素。这凸显了生成型人工智能在超越人类进行复杂金融投资决策方面的巨大潜力，并证明了大型语言模型的注意机制在完全不同的领域中的有效性。

Apr, 2024

GPT-SW3：针对北欧语言的自回归语言模型

本篇论文介绍了第一个本地大型生成语言模型 GPT-SW3 的开发过程，包括数据收集和处理、训练配置和指令微调、评估以及发布策略的考虑，并希望该论文能为其他研究者在小语种的大型生成模型的开发提供指南和参考。

May, 2023

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

PointGPT：基于点云的自回归生成预训练

提出了 PointGPT 方法来扩展 GPT 模型到点云中进行自回归生成任务的预训练，其通过多个点序列来实现学习潜在的表示，并在各种下游任务中实现了最先进的性能，特别是在 few-shot 学习方面也产生了新的 state-of-the-art 结果。

May, 2023

GPT-too：一种以语言模型为首选的 AMR-to-text 生成方法

本文提出了一种基于预处理的强化语言模型和基于回环一致性的重新评分相结合的方法，有效地生成表征意义的 AMRs 数据的文本，并在英语 LDC2017T10 数据集上的表现优于以往的所有技术，包括 transformer 架构。

May, 2020

一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

本文提出了一种基于掩模模型的概率掩模方案（PMLM），它支持按任意顺序生成文本，并在下游自然语言理解任务上超越了 BERT。

Apr, 2020

BatGPT: 双向自回归生成预训练 Transformer 对话模型

BatGPT 是由武汉大学和上海交通大学联合设计和训练的大型语言模型，具有双向自回归架构和参数扩展方法，可以生成高度自然流畅的文本和用于各种自然语言处理任务。

Jul, 2023

ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成

利用巨大语言模型和 GPT，我们将因果生成引入视频扩散模型中，通过引入因果时序注意力和以帧为提示的设计，我们提出了 Video Diffusion GPT（ViD-GPT），能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制，我们还能够消除重叠帧的冗余计算，显著提高了推理速度。广泛的实验证明，我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。

Jun, 2024