- II-Bench:基于多模态大型语言模型的图像影响理解基准
通过对多个多模态大型语言模型进行实验,我们发现高级图片感知能力方面存在较大差距,并且这些模型在理解高级语义和捕捉图片细节方面存在限制。此外,当提供图片情感极性提示时,大多数模型表现出更好的准确性,暴露出它们对图片情感的内在理解不足。
- 神经组合优化算法用于解决车辆路径问题:综述与展望
基于对相关出版物和预印本的全面审查,我们将所有神经组合优化求解器分为四个不同的类别,并提出了克服当前最先进求解器不足之处的有希望和可行的方向,并对来自强化、监督和无监督学习范例的代表性神经组合优化求解器在小规模和大规模车辆路径问题上的性能进 - ACL对话式协作计划获取中的心智理论建模限制
通过将计划表示为图形并利用任务特定的约束条件,我们表明,在预测自己的缺失知识时,对心智模型的改进并没有显著提高协作计划获取的性能,这一现象甚至在评估现有基准方法时仍然存在。
- 用于人脸识别中合成和真实数据评估的大规模标注数据集
通过对真实数据集和合成数据集进行性能比较,我们发现了真实数据集和合成数据集之间的差异,并发现真实样本足以解释合成分布,而相反情况则不成立。
- ICLRVoltaVision: 电子元件分类的迁移学习模型
本文分析了在对电子元件进行分类时,迁移学习的有效性。我们介绍了一种轻量级卷积神经网络模型 VoltaVision,并将其性能与更复杂的模型进行了比较。我们测试了从类似任务中迁移知识到目标领域是否比在一般数据集上训练的最先进模型获得更好的结果 - 研究信息检索增强生成和微调技术在基于人工智能驱动的知识系统开发中的性能
基于 ROUGE、BLEU、METEOR 分数和余弦相似度的衡量标准,我们对 GPT-J-6B、OPT-6.7B、LlaMA、LlaMA-2 这几种语言模型的 RAG 和 FN 技术的性能进行了比较和分析,结果表明 RAG 基于构造的模型较 - 基于迁移学习的不平衡恶意软件字节图像分类的比较分析
通过比较六个多类分类模型在三个数据集上的性能,观察了类别不平衡对模型性能和收敛的影响,发现类别不平衡越严重,收敛所需的时期越少,而不同模型的性能也存在较大差异。此外,研究还发现 ResNet50、EfficientNetB0 和 Dense - 大型语言模型是否能理解真实世界的复杂指令?
通过广泛的实验证明,我们提出了 CELLO—— 一个评估大型语言模型理解复杂指令能力的基准,包括八个复杂指令特征,并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法,以比较代表性的面向中文和面向英文模型在跟随复杂 - 基于响应、特征和关系的知识蒸馏分类
这篇论文提供了一份全面的知识蒸馏调查,包括知识类别、蒸馏方案和算法,以及一些性能比较的实证研究。
- 新的回归算法的表现评估和比较
比较新提出的回归算法与传统机器学习算法(决策树、随机森林、KNN 和 XG Boost)的性能,使用平均绝对误差作为性能度量标准在各种数据集上进行深入比较,展示了新的算法具有的潜力和鲁棒性。
- 基于深度学习的稀疏观测数据日预报
本文介绍了 MetNet-3,即一个基于气象观测预测降雨、风、温度和露点的神经网络模型,该模型引入了一种重要的数据密集化技术,并通过性能比较,证明了 MetNet-3 与最先进的概率性数值天气预报模型相比,在 24 小时内具有更好的预测表现 - Polyglot-Ko 技术报告:开源大规模韩语语言模型
Polyglot 韩文模型是为了解决多语言语言模型中的非英语语言表现差距而开发的,一个特定重点是韩文的模型
- SIGIR当新不如旧:深度学习是否真正有益于从隐式反馈中进行推荐?
通过对 13 种流行的推荐模型进行大规模实验,首次提出了一组评估策略来比较神经模型和传统模型在推荐系统的表现,发现在不同方面神经模型都不一定优于传统模型,并且在子群体方面表现更优。
- 使用权重修剪和奇异值分解在嵌入式设备上的可扩展目标检测
本文提出了一种将权重剪枝和奇异值分解相结合的方法来优化目标检测模型,作者通过与原始模型在帧率、mAP@50 和模型大小等方面性能的对比令其表现更加优越,进而证明该方法可以在保持准确性、速度和模型大小平衡的基础上有效地优化目标检测模型。
- MACOptions: 集中控制器和选项框架下的多智能体学习
本文介绍了针对多智能体的自动化规划方法,比较了三种不同的方法(随机策略、Q 学习和选项框架下的 Q 学习),并通过对比 Q 学习有无规划器的不同表现来展示规划器的有效性。
- Prasatul Matrix:一种用于分析进化优化算法的直接对比方法
该论文提出一种直接比较演化优化算法性能的方法,通过构建名为 Prasatul Matrix 的直接比较矩阵和五种性能评估指标,既可以比较多个算法的性能,也能评估每个算法的优化和可比性解决方案,同时使用 Wilcoxon 配对秩和检验来验证该 - 文本分类中令牌分类和序列分类的比较研究
本研究比较了序列分类器和标记分类器在基于预训练模型的 NLP 模型性能表现,并对同一数据集进行了评估。
- 我们需要谈论随机种子
该论文分析了现代神经网络库中随机种子的使用,论述了其安全和危险的用法,并通过对 ACL 文献集的分析发现,超过 50%的论文使用了随机种子的危险用法。
- 无监督异常检测算法的大规模评估揭示
本文综合研究了 12 个最流行的无监督异常检测方法,发现它们被评估时使用了不一致的协议,因此定义了一致的评估协议并用于比较它们在五个广泛使用的表格式数据集上的性能。尽管评估不能确定一种方法在所有数据集上优于其他方法,但它识别出那些突出表现的 - 语音转文本非自回归建模的比较研究
本文对不同的无自回归(NAR)建模方法进行了比较性研究,实验证明了 NAR 模型相较自回归基线的精度降低代价下,可以同时在序列中生成多个输出,具有在实时应用中优足的潜力,在自动语音识别领域的性能差距上得到了一些有趣的发现,并展示了结合这些技