generative transformer models | BriefGPT

关键词generative transformer models

搜索结果 - 4

寻找一千万根干草堆中的针：循环记忆找到了低语言模型所错过的
本研究论文通过引入 BABILong 基准来评估模型在提取和处理长文本中分布式事实的能力，发现传统方法只适用于长度为 10^4 的序列，而使用细调 GPT-2 与循环记忆增强可以处理长度为 10^7 元素的任务，这一成就大大提高了长序列处理
PDF5 months ago
ACL生成语言模型中演绎推理的出现
本研究初步探讨了生成 Transformer 模型从给定前提中演绎推理的能力，发现其性能与训练设置和参数规模有显著差异，而且推理链的长度一般不会影响性能，除了 OpenAI GPT-3 和 GPT-3.5 模型。研究考虑了大小从 1.17
PDFa year ago
关于 ChatGPT 和 DALL-E 2 在决策制定和空间推理方面的试点评估
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估，发现 DALL-E 2 在空间推理方面有较好表现，而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策，在模型认知能力评估规
PDFa year ago
AtMan: 通过内存高效的关注力操作理解 Transformer 的预测
提出了一种类别不可知扰动方法 AtMan，通过操纵 Transformer 的注意力机制产生与输出预测相关的输入关联图，相较于背向传播方法更兼并且计算量更小，已在文本和图像文本基准测试中取得了优异的表现。
PDFa year ago