BriefGPT.xyz
Ask
alpha
关键词
decoder-only transformer architecture
搜索结果 - 3
SMART:通过下一个标记预测实现可扩展的多智能体实时模拟
SMART 是一种新的自主驾驶运动生成范例,通过将矢量地图和代理轨迹数据建模为离散序列记号,并通过仅有解码器的 Transformer 架构处理这些记号,从而实现在实际驾驶场景中学习运动分布的性能。
PDF
2 months ago
朝着更小、更快的只解码 Transformer:架构变体及其影响
本研究引入了三种变体(ParallelGPT、LinearlyCompressedGPT 和 ConvCompressedGPT)来修改解码器专用的 Transformer 架构,这些变体在代码生成任务中取得了可比较的性能,同时具有模型尺寸
→
PDF
3 months ago
StableMask:在仅使用解码器的 Transformer 中优化因果掩码
通过改进因果掩码的方法,提出了 StableMask,解决了 decoder-only Transformer 架构中的限制,并在语言模型中得到了显著的增强。
PDF
5 months ago
Prev
Next