σ-GPTs: 一种新的自回归模型方法
我们提出了 SketchGPT,这是一个灵活的框架,使用序列到序列的自回归模型进行素描生成和完成,并进行了一个解释性案例研究用于素描识别。
May, 2024
利用预先生成的模型状态进行回收,RecycleGPT 是一种生成式语言模型,具有快速解码速度,通过理论评估和实际测试,在保持高性能的同时实现了 1.4 倍加速,降低了推理延迟。
Aug, 2023
本文介绍了 StockGPT,一种在美国股票每日收益历史数据上直接预训练的自回归 ' 数值 ' 模型。通过将每个收益系列视为标记序列,该模型在理解和预测高度复杂的股票收益动态方面表现出色。利用注意机制,StockGPT 自动学习预测未来收益的隐藏表示。在 2001 年至 2023 年的测试样本中,基于 StockGPT 预测的每日重新平衡的多空投资组合年收益为 119%,夏普比率为 6.5。基于 StockGPT 的投资组合完全解释了动量和长期 / 短期逆转现象,消除了手动构建基于价格的策略的需要,并涵盖了大多数领先的股市因素。这凸显了生成型人工智能在超越人类进行复杂金融投资决策方面的巨大潜力,并证明了大型语言模型的注意机制在完全不同的领域中的有效性。
Apr, 2024
本篇论文介绍了第一个本地大型生成语言模型 GPT-SW3 的开发过程,包括数据收集和处理、训练配置和指令微调、评估以及发布策略的考虑,并希望该论文能为其他研究者在小语种的大型生成模型的开发提供指南和参考。
May, 2023
本文介绍了两种自回归 GPT 类模型,使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索,展示了多种任务上的表现,包括分类、生成、序列标记和知识探测,在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。
Apr, 2022
提出了 PointGPT 方法来扩展 GPT 模型到点云中进行自回归生成任务的预训练,其通过多个点序列来实现学习潜在的表示,并在各种下游任务中实现了最先进的性能,特别是在 few-shot 学习方面也产生了新的 state-of-the-art 结果。
May, 2023
本文提出了一种基于预处理的强化语言模型和基于回环一致性的重新评分相结合的方法,有效地生成表征意义的 AMRs 数据的文本,并在英语 LDC2017T10 数据集上的表现优于以往的所有技术,包括 transformer 架构。
May, 2020
BatGPT 是由武汉大学和上海交通大学联合设计和训练的大型语言模型,具有双向自回归架构和参数扩展方法,可以生成高度自然流畅的文本和用于各种自然语言处理任务。
Jul, 2023
利用巨大语言模型和 GPT,我们将因果生成引入视频扩散模型中,通过引入因果时序注意力和以帧为提示的设计,我们提出了 Video Diffusion GPT(ViD-GPT),能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制,我们还能够消除重叠帧的冗余计算,显著提高了推理速度。广泛的实验证明,我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。
Jun, 2024