architectures | BriefGPT - AI 论文速递

关键词architectures

搜索结果 - 27

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型
检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未
PDF2 months ago
基于片段的全新 2D 分子生成综述
在计算分子生成领域，基于片段的深度生成模型是发现新化学化合物的关键任务，具有领先的方法，在 2023 年一直在分子设计基准测试中获得最新成果。我们对这些模型的架构进行了详细的比较评估，重点介绍了它们在分子分割和生成建模方面的独特方法。本综述
PDF2 months ago
关于深度学习技术及其在手写识别中的应用范围的综述
深度学习在手写识别领域的现有研究成果进行了调查，尽管深度学习方法在加快速度和提供准确结果方面取得了显著进展，但根据文献综述，目前的研究发现深度学习仍需解决许多挑战，尤其是在数据标注方面存在问题。然而，手写识别研究预见到深度学习将在图像处理、
PDF3 months ago
CVPR通过可学习的代理引导和对齐联合训练和修剪 CNN
本文提出了一种新的结构剪枝方法，通过强化学习代理来联合学习卷积神经网络模型的权重和结构剪枝，其核心元素是一个强化学习代理，通过动态奖励函数来确定 CNN 模型各层的剪枝比例，实验证明该方法在 CIFAR-10 和 ImageNet 数据集上
PDF3 months ago
LLM 中大规模评估结果的全面重新评估：多方面的统计方法
通过应用 ANOVA、Tukey HSD 测试、GAMM 和聚类技术，本研究对 LLMs 进行了彻底重新审视，针对当前评估方法中的不足之处。我们的研究利用了大量的评估结果数据集，引入了全面的统计方法，为解析 LLM 性能数据提供了一个强大而
PDF3 months ago
LLM 增强型自治代理能够合作吗？— 通过熔炉验证其合作能力
大语言模型在自主代理中的合作能力及其与 Melting Pot 环境中的应用和评估
PDF4 months ago
深度学习中卷积的综合调查：应用、挑战和未来趋势
在这篇论文中，我们全面考察并比较了不同的卷积神经网络架构，重点强调了它们的结构差异以及各自的优势、劣势、应用、挑战和未来趋势。
PDF4 months ago
当表示对齐时：在表示学习动态中的普适性
在复杂的大规模架构中，深度神经网络的表征学习动态可以用编解码映射为任意平滑函数的有效理论来描述，该理论能够概括多种不同激活函数和架构的深度网络的表征学习动态，并展现类似于 “丰富” 和 “懒惰” 区域的现象。
PDF5 months ago
股票数据时间序列预测中的高维神经网络
对三种用于时间序列预测的架构进行了测试，它们分别包含卷积层、LSTM 层和密集超复数层用于 4D 代数。通过优化与架构类别相关的超参数，比较了最佳神经网络在类别内的性能。结果显示，在大多数情况下，具有超复数密集层的架构与其他架构相比，提供了
PDF6 months ago
ICCV现代量化高效神经网络的校准
我们探讨了 ShuffleNetv2、GhostNet-VGG 和 MobileOne 三种架构的不同精度下的校准性能，以及 CIFAR-100 和 PathMNIST 两个数据集。发现校准质量与量化质量呈正相关，低精度下性能下降与校准质量
PDF9 months ago
大型语言模型综述
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估，并讨论了未来的研究方向，最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
PDFa year ago
使用 EffUNet 和迁移学习方法进行建筑物和道路分割
通过使用谷歌的新模型，本文旨在对卫星和无人机航拍图像进行城市目标（建筑和道路）的语义分割，以提供城市规划决策所需的准确信息。
PDFa year ago
神经网络架构讲义
这篇论文从数学角度概述了神经网络结构，尤其是把神经网络看作是一个优化问题。涵盖了前馈神经网络，卷积神经网络，ResNet 和循环神经网络等结构。
PDFa year ago
深度学习综述：从激活函数到 Transformer
本文提供了最近在深度学习领域中，新兴架构、优化技术、注意力、自监督学习等多个方面的全面综述。通过对这些领域中最重要和最新的研究工作的全面概述，希望帮助深度学习领域的研究人员在各领域间形成新的联系。
PDFa year ago
在图神经网络中解释解释者：一项比较研究
本文通过实验研究，测试了十种解释器在八种代表性架构训练的六个仔细设计的图形和节点分类数据集上的表现，提供了 GNN 解释器选择和适用性的关键见解，分离了使它们可用的关键组件并提供了关于如何避免常见解释误区的建议，并强调了未来研究的开放性问题
PDF2 years ago
神经网络路径规划
利用神经网络在机器人路径规划中的应用有不同的输入、输出和环境，不同的网络架构能够提供解决方案。
PDF2 years ago
医疗领域物联网设备的能力、架构、协议和智能应用：一种综述
本文对物联网技术进行综述，并详细介绍了常见的物联网设备能力、架构和协议，以及在医疗保健领域中的潜在应用，总结了现有知识的最新进展和未解决的问题，并提出了进一步研究的建议。
PDF2 years ago
物理学的对称群等变架构
本文探讨了在物理学和机器学习领域中，研究对称群等变机器学习结构所带来的深度投资和收益，并讨论了应用这些方法的潜在益处和限制以及对不同物理应用的各种评估指标。
PDF2 years ago
BNAS v2: 二进制网络结构学习与实证优化
该论文提出了一种基于单元的搜索方法，通过为二进制网络定义新的搜索空间和新的搜索目标，重新定义二进制层类型，设计一种新的单元模板，提出使用 Zeroise 层来代替占位符，并进一步提出了改进我们搜索到的体系结构的训练方案。经过定量分析，实验结
PDF3 years ago
重访针对表格数据的深度学习模型
本研究对表格数据的深度学习架构进行概述，提出了两种简单而强大的基准深度架构，并发现 Transformer 架构对于表格数据的性能最优。
PDF3 years ago