BriefGPT.xyz
大模型
Ask
alpha
关键词
generative transformer models
搜索结果 - 4
寻找一千万根干草堆中的针:循环记忆找到了低语言模型所错过的
本研究论文通过引入 BABILong 基准来评估模型在提取和处理长文本中分布式事实的能力,发现传统方法只适用于长度为 10^4 的序列,而使用细调 GPT-2 与循环记忆增强可以处理长度为 10^7 元素的任务,这一成就大大提高了长序列处理
→
PDF
5 months ago
ACL
生成语言模型中演绎推理的出现
本研究初步探讨了生成 Transformer 模型从给定前提中演绎推理的能力,发现其性能与训练设置和参数规模有显著差异,而且推理链的长度一般不会影响性能,除了 OpenAI GPT-3 和 GPT-3.5 模型。研究考虑了大小从 1.17
→
PDF
a year ago
关于 ChatGPT 和 DALL-E 2 在决策制定和空间推理方面的试点评估
本篇研究通过对两个生成式变压器模型 ChatGPT 和 DALL-E 2 进行认知能力的选择性评估,发现 DALL-E 2 在空间推理方面有较好表现,而 ChatGPT 在合理构建下呈现出一定的合理性但也存在不合理决策,在模型认知能力评估规
→
PDF
a year ago
AtMan: 通过内存高效的关注力操作理解 Transformer 的预测
提出了一种类别不可知扰动方法 AtMan,通过操纵 Transformer 的注意力机制产生与输出预测相关的输入关联图,相较于背向传播方法更兼并且计算量更小,已在文本和图像文本基准测试中取得了优异的表现。
PDF
a year ago
Prev
Next