BriefGPT.xyz
Ask
alpha
关键词
forgetting phenomenon
搜索结果 - 2
深思熟虑:带有内部工作记忆的决策 Transformer
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
PDF
a year ago
对话响应模型预训练微调中的遗忘问题分析
本研究探讨预训练 - 微调框架中的微调阶段如何改变预训练神经语言生成模型的行为,发现标准微调后模型遗忘了某些重要的语言生成技巧,提出了一种直观的微调策略 “混合回顾”,能够缓解模型遗忘现象,最终讨论了对话模型的有趣行为及其含义。
PDF
5 years ago
Prev
Next