generalization abilities | BriefGPT

关键词generalization abilities

搜索结果 - 34

布朗非局域神经元与激活函数
在本文中，我们通过定义非局部方向导数的新概念，并分析其理论属性，推导出非局部导数是 ε-sub 梯度的概率重整结果，以及收敛于随机梯度下降方法的样本复杂度结果。最终，利用非局部梯度解决了图像关节流形上参数估计的高度不可微和非凸模型问题，并通
PDF13 days ago
基于深度强化学习的自动规划中的目标选择学习
提出了一种具备学习选择子目标的规划和行动架构，可以在面对有实时限制的场景时减轻规划器的负载。在视频游戏环境中训练了这种架构，并通过测试同一游戏的不同关卡来评估其泛化能力。结果表明，与其他方法相比，该模型在计划质量（计划长度）和时间要求方面表
PDF14 days ago
梯度同构引导的联邦稀疏训练
边缘计算允许在边缘设备上部署人工智能和机器学习模型，它们可以从本地数据中学习并协作形成全局模型。联邦学习是一种分布式机器学习技术，旨在在保护数据隐私的同时促进此过程。本文提出了一种新方法 —— 梯度一致性引导的联邦稀疏训练（FedSGC），
PDF2 months ago
三维扩散策略
3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to t
PDF4 months ago
仅使用文本监督在视觉 - 语言模型中学习提示
本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。
PDF6 months ago
离线强化学习中的泛化缺陷
该研究通过比较在线学习和离线学习等方法的泛化能力，引入离线学习泛化性能评估的新基准，并发现离线学习算法在新环境中的表现不如在线学习算法，而增加数据多样性能够提高离线学习算法在新环境中的性能。
PDF7 months ago
从互信息到期望动力学：针对重尾随机梯度下降的新的泛化界限
理解现代机器学习算法的泛化能力作为研究主题在过去几十年中备受关注。最近，随机梯度下降（SGD）的学习动态与重尾动态有关，这已成功应用于利用这些动态的分形属性的泛化理论中。然而，所推导出的界限依赖于超出计算能力的互信息（解耦）项。在本研究中，
PDF7 months ago
基于 Transformer 的描述逻辑上下文推理
通过使用描述逻辑知识库构建一个合成的自然语言问答数据集，本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现，并展示了模型在训练过程中对不同推理深度的泛化能力。
PDF8 months ago
基于 LLMs 的短语结构解析
运用大型语言模型探索生成线性化树解决成分句法分析任务，并通过实验证明模型的性能、泛化能力和挑战。
PDF8 months ago
AV-SUPERB: 音频 - 视觉表示模型的多任务评估基准
音频 - 视觉表示学习，一种开发具有类似于人类感知的系统的方法，利用声音和视觉信息之间的相关性。然而，目前的模型往往专注于有限的任务集，并且对学习表示的泛化能力尚不清楚。因此，我们提出了 AV-SUPERB 基准，它在涵盖语音和音频处理中的
PDF9 months ago
主题、领域和语言变化的桥梁：综合离域场景的评估
在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。
PDF10 months ago
修剪自注意力的零样本多说话者文本转语音
为了实现个性化的语音生成，我们提出了一种基于稀疏关注机制的剪枝方法，用于增强 TTS 模型的泛化能力。该方法通过删除注意力权重低于阈值的冗余连接，灵活确定剪枝强度，同时改进了语音质量和说话人相似性。
PDF10 months ago
损失地形的曲率研究
通过分析嵌入的黎曼流形的微分几何性质，我们研究了损失景观，并展示了与潜在推理相关的几个设置之间的联系。
PDFa year ago
没有独立性的泛化误差：去噪、线性回归和迁移学习
本文探讨了线性模型在实际数据中的泛化能力，并提出了一种在非独立同分布数据和分布变化情况下的解决方法，得到了渐近精确的理论结果，并在实际数据验证了结果的有效性。
PDFa year ago
ACL形态变化：一次现实检验
研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因，提出了更好反映实际使用情况的数据采样和评估策略，探讨了当前变形系统的泛化能力。
PDFa year ago
基于 PCFG 的自然语言接口改进受控文本生成的泛化性能
本论文提出了一种将控制属性嵌入自然语言命令中的基于 PCFG 的生成命令方法，并提出了将命令作为输入的 CTG 模型变体，在实验中发现，这种方法不仅可以有效处理未见过的命令，而且可以有效泛化到未见过的属性及其组合，并通过简单条件生成方法强化
PDF2 years ago
EMNLPGA-SAM: 基于梯度强度的自适应锐度感知优化算法，以提高泛化能力
本文从理论角度分析了局部最小值的平坦程度与模型泛化性能的关系，提出了基于梯度强度的自适应 Sharpness-Aware Minimization 算法（GA-SAM）来发现更具鲁棒性的平坦局部最小值，其在自然语言任务上的表现令人满意。
PDF2 years ago
KDD显著性正则化深度多任务学习
该论文提出了一种新的多任务学习框架，通过补充现有的浅层和深度多任务学习场景的优势，联合学习潜在特征和显式任务关系。同时，通过新的正则化器显式地学习任务关系。理论分析表明，该方法降低了泛化误差，实验表明该方法是有效的、高效的并且合理的。
PDF2 years ago
ACLBERT 是否真的赞同？对语法任务上词汇依赖的精细分析
该研究评估了基于 Transformer 的神经语言模型在语法识别任务中的一般性能力，特别是在处理句子结构和词汇形态方面的通用表现，描述了在有吸引因素的情况下，词汇独立的句法泛化失败的情况。
PDF2 years ago
隐私保护下的人像抠图再思考
本文提出了一个隐私保护的肖像抠图 (P3M) 标准数据集，采用高分辨率的面部模糊肖像图像以及高质量的阿尔法抠图来评估现有的抠图方法。针对训练集仅用面部模糊图像而测试集包含任意图像的情况，本文使用 P3M-Net 模型和剪切图法提高了抠图模型
PDF2 years ago