- SCAR:大型语言模型的高效指令调整(Instruction-Tuning)通过风格一致性感知的响应排序
通过维持人类专家的一致性响应风格和提高训练集中的数据质量,可以显著提高精调大型语言模型(LLMs)的性能,同时减少所需的训练样本数量。研究将响应风格分解为表达和组合风格,并发现在类似质量的训练数据中,具有更高风格一致性的数据可提高 LLM - 通过平衡训练数据可以减少由面部发型引起的准确性偏差吗?
面部的着装出现变化可以大大改变外貌。虽然更大的训练集可以提高对所有面部着装的识别准确率,但是由于面部着装的影响,准确率的变化不受训练集大小的影响。此外,不同人群中面部着装的分布可能导致误导人们对不同人群之间识别准确率的印象。通过分析面部着装 - 细调和迁移学习的控制论方法
通过引入 “遗忘无忘” 的概念,本文提出了一种迭代算法,通过投影控制函数 $u^*$ 到已学样本生成的末端映射的核上,实现在训练集扩展时保持先前学习样本的末端不变,并迭代学习新样本,从而为控制方法的可伸缩性做出了贡献。
- CVPR基于扩散的文本到图像生成的可扩展性研究
通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像 - 图神经网络用于治疗效果预测
使用图神经网络结合节点回归和消息传递机制,结合收集训练数据的策略,在大规模电子商务数据中实现对有限标记样本的因果效应估计。
- StarCoder 2 与 The Stack v2:下一代
BigCode 项目介绍了 StarCoder2 模型,在训练数据上取得了较好的性能,在不同规模的 Code LLM 基准测试中均优于其他模型。
- ICLR利用生成式人工智能和几何一致性进行定位的防倾倒检索
通过使用生成性文本到图像模型从而扩展训练集,我们改进了图像检索步骤,并通过具体和底层几何特征将真实图像和合成图像混合进行训练,实现了挑战性视觉定位数据集的显著改善。
- 用一千个群组进行有区分性的一致性挖掘以实现更准确的共显目标检测
Co-Salient Object Detection (CoSOD) is improved by introducing a new training set called CoSINe dataset, allowing better - 树状图距离:一种使用层次聚类评估生成网络的度量标准
我们提出了一种用于生成建模评估的新颖度量方法,主要关注生成网络。该方法使用树状图来表示真实数据和虚假数据,从而能够计算训练样本和生成样本之间的差异。该指标专注于模式坍塌,针对无法捕捉训练集中所有模式的生成器。为了评估所提出的方法,在真实数据 - 通过最大化重新标记准确性实现噪声标签下的稳健数据修剪
通过重新标记和剪枝训练集,本研究提出了一种最大化数据子集总体近邻置信度以提高重新标记准确性和泛化性能的数据剪枝算法。在实验中,该算法相比于重新标记模型提高了 9.1%,相比于标准模型提高了 21.6%。
- 对话摘要中的情感细微差别评估
自动对话摘要是一个已经建立良好的任务,旨在从人类对话中识别出最重要的内容,创建一个简短的文本摘要。尽管该领域最近取得了进展,但我们发现大部分研究都集中在总结事实信息上,忽略了能够传达有用信息以分析、监控或支持人类互动的情感内容。本文提出并评 - 研究机器学习回归中最小化训练集填充距离
研究了一种抽样方法,旨在最小化填充距离,通过选择最小填充距离的训练集,实验证明该方法显著降低了各种回归模型的最大预测误差,远远优于现有的抽样方法。
- 学习压缩图像时去噪的重要性
本文提出在训练编解码器时明确地学习图像去噪任务,通过监督编解码器的噪声 - 干净图像对,得出训练多种噪声水平图像组成的混合模型效果最佳,能在压缩、去噪任务中优于一组去噪 - 压缩模型。
- 子集选择与知情图神经网络的相互作用
使用领域知识为 Qm9 数据集的分子离子化能量预测选择高效的训练集和 ML 技术,通过最大化训练集中分子的多样性,提高线性和非线性回归技术(如核方法和图神经网络)的鲁棒性,并基于速率扭曲解释框架的模型不可知解释器来检查图神经网络的预测可靠性 - 第三届反无人机研讨会与挑战:方法与结果
本文章概述了第三届反无人机挑战赛(Anti-UAV Challenge)的主要内容,包括多尺度目标跟踪和检测、公开的数据集和训练集等。此次比赛的全球参赛队伍约有 76 个,本文还介绍了各个赛道的前三名方法。
- 从多类神经网络中重建训练数据
本文讨论了神经网络训练集的隐私问题。作者对 Haim 等人的研究进行了改进,提出了在多类情况下对训练数据进行重建的方法,并表明使用权重衰减技术训练的模型更容易被重建。此外本研究还展示了从 100 类训练集中的 5000 个样本进行重建的初步 - CVPR大规模训练数据搜索用于物体再识别
本篇论文提出了一种适用于物体重新识别领域的搜索和修剪(SnP)方案,用于从大规模数据池中构建训练集,以便获得具有竞争优势的模型,在不拥有实时标注数据的情况下,能够具有较高的重新识别精度。通过两个步骤提供比源池小 80%的训练集,同时达到类似 - AAAI从培训动态中学习:识别手动设计特征之外的错误标记数据
本研究提出了一种使用噪音检测器(由 LSTM 网络实现)基于原始训练动态来判断样本是否存在错误标签,并通过标注纠错提高深度模型的性能的新型学习解决方案,实验证明此方法在各种数据集上均能精确检测出错标样本,优于现有的技术。
- 基于分解的序列到序列学习的真实世界组合通用化
通过对 Disentangled sequence-to-sequence 模型进行改进,我们引入了两个关键的修改,以更好地处理语言中的组合概括,从而在现有任务和数据集上实现更好的泛化性能,并创造了一个新的机器翻译基准,并展示了这种方法比人 - 非线性特征映射下的少样本学习的数学理解
我们研究了数据分类问题,探究了机器学习模型的特征空间几何形态、数据分布结构和泛化能力之间的关系,发现非线性特征转换对于将原始数据映射至高维甚至无限维空间对模型的泛化能力有重要影响。