BriefGPT.xyz
Ask
alpha
关键词
attention diffusion
搜索结果 - 2
通过工作流范式增强关注机制:改进基于 LLM 的文本到 SQL 的分解
通过工作流模式方法,改善大型语言模型在文本到 SQL 任务中的上下文学习能力,提高关注力和问题解决范围,包括信息确定模块、基于问题分类的全新提示结构,以及自我纠正和主动学习模块的引入。在三个数据集上的广泛实验表明,我们的方法表现优于其他方法
→
PDF
5 months ago
Diffuser:基于多跳关注扩散的高效长序列 Transformer 模型
提出了一种新的高效 Transformer 模型 Diffuser,在保持低计算量和内存成本的同时,通过 Attention Diffusion 扩大了基于稀疏注意力的 receptive field,并且通过实验证明,在文本分类和 LRA
→
PDF
2 years ago
Prev
Next