- CVPRDiverGen: 通过学习更多样化的生成数据改善实例分割中的数据分布
通过构建多样化的生成数据集策略以提高模型性能,我们的 DiverGen 方法在 LVIS 数据集上较强模型 X-Paste 表现出更好的实例分割效果,所有类别平均精确度提高了 1.1%,稀有类别的平均精确度提高了 1.9%(框)和 2.5% - 人工智能反向影响:生成式人工智能时代中数据污染的注意事项
人工智能生成技术和大型模型产生了现实感十足的输出,但盲目使用合成数据可能导致模型性能下降和伦理问题,因此需要平衡使用真实数据和合成数据的方法来优化结果。这篇综述研究了在生成模型中盲目整合合成数据对图像和文本模态的训练的后果,并探索了缓解这些 - CVPR歧义标注:何时不是行人?
通过排除高度模棱两可的数据,在自动驾驶数据集的标注中探究标注的模糊性,可以提高最先进行人检测器的模型性能,从而节省训练时间和标注成本,并确保训练数据的代表性。
- 隐私感知主动学习中的最大信息增益策略研究
通过使用信息增益最大化启发式方法,我们开发了一种增强的主动学习方法,并在一个真实环境中对其有效性进行了评估,该环境中由于隐私问题,只能由人类分析员对电子邮件的编辑版本进行标记。在两个案例研究中,我们发现对模型性能进行最佳评估的方法是由一位高 - 多损失梯度调节改进多模态学习
通过学习多种模态(如音频和视频)可以利用互补信息,提高模型性能,本文提出了一种多损失目标和改进的平衡过程,通过动态调整不同模态的学习速度来实现更好的结果。
- 利用固定和动态伪标签进行半监督医学图像分割
利用多个伪标签进行半监督医学图像分割,可以提高模型性能和泛化能力。验证结果显示,这种新方法在几个医学图像数据集上的表现明显优于现有方法。
- DTMamba:时间序列预测的双孪蛇
利用 Mamba 模型对时间序列数据预测任务进行了实验,实验结果表明我们的模型表现良好。
- 非平稳领域泛化:理论与算法
该论文研究了非稳定环境下的领域泛化问题,并提出了一种基于自适应不变表示学习的新算法,该算法利用非稳定模式来训练一个在目标领域上具有良好性能的模型。实验证实了该算法在合成数据和真实数据上的有效性。
- KeepOriginalAugment: 基于单图像的改进信息保留数据增强方法
引入了一种名为 KeepOriginalAugment 的新型数据增强方法,可以使模型利用突出区域和非突出区域的多样性,在各项实验评估中显示出比现有技术更优越的性能。
- 量化 LLM 在规模和精度方面的能力
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
- 探索大型语言模型在识别误导性新闻标题中的潜力
利用大型语言模型(LLMs),本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异,ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性,旨 - 人机协同的可解释界面:一项综述
本文从以人为中心的角度对人工智能可解释性界面在人工智能增强的人机协作系统中的透明性挑战进行了深入研究,并提出了一个用于评估该界面的新框架。通过在可解释人工智能、人机协作以及人机交互等领域进行广泛调查,该研究提供了多个新见解,探讨了将可解释人 - 模型架构与规模对预测分子性质的作用:来自对 RoBERTa、BART 和 LLaMA 的微调的见解
该研究引入了一个系统框架,用于比较大型语言模型在各种化学信息学任务中的微调效果。通过采用统一的训练方法,我们评估了三种知名模型(RoBERTa、BART 和 LLaMA)在使用 SMILES 作为通用分子表示格式预测分子性质时的能力。我们的 - 基于 Transformer 的自监督学习用于缺血性脑卒中血栓起源的组织病理分类
利用自我监督深度学习方法识别缺血性中风血栓来源的数字病理学研究,模型在交叉验证和测试集上取得了良好的性能,但仍需要进一步改进模型,并验证其有效性。
- 更多计算是您所需之物
基于新的缩放定律,我们推测模型性能主要取决于计算经费的使用,而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律,我们预测(a)训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率,(b)假设可用的网络数据集已耗尽,扩大模型大 - 跨域联邦学习的数据集相似度通用度量
我们提出了一种用于评估数据集相似性的新型指标,该指标具有 FL 所需的几个理想特性:与数据集无关、以隐私保护的方式计算、计算效率高,无需模型训练。我们在合成、基准和医疗成像数据集等一系列数据集上对这一指标进行了广泛评估,证明了它与模型性能具 - 强化学习的更多人类友好性,更多的信任?对语言模型可靠性的影响
研究发现在大型语言模型的发展中,通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善,但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究,发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此,需 - 基于神经符号嵌入的自回归生成短且高效特征选取
本研究通过神经符号化的视角提出了一个新颖的生成框架,旨在通过学习有效特征子集来改进下游模型的性能,并且提出了一个基于编码器 - 解码器 - 评估器学习范式,在连续嵌入空间中保留特征选择的智能进行高效搜索。综合实验证实了该框架的有效性。
- 基于嵌入的层级动态标注的半监督分类的拓展研究
使用 Hierarchical Dynamic Labeling(HDL)算法,不依赖于模型预测的方式利用图像嵌入生成样本标签,进而改善半监督学习中伪标签生成的表现,验证了表示网络比分类器或预测器更可靠的动机。
- 检查 LLM 评估对基准分布假设的鲁棒性
基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成