BriefGPT.xyz
大模型
Ask
alpha
关键词
delayed bottlenecking pre-training
搜索结果 - 1
延迟瓶颈化:缓解预训练图神经网络中的遗忘
传统的预训练和微调流程中的遗忘现象可能对下游任务产生不利影响,因此我们提出了一种新颖的延迟瓶颈预训练(DBP)框架,通过抑制压缩操作并延迟至微调阶段来尽量保持潜在表示与训练数据之间的互信息,以确保压缩能够由有标签的微调数据和下游任务进行引导
→
PDF
2 months ago
Prev
Next