- SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻 - 通过数据提炼和条件生成填空改进抽象摘要的事实错误修正
提出一种基于条件生成填空任务的新型事实错误修正模型 FactCloze,通过多维度评估生成更忠实的摘要数据集 SummDSC,实验证实了该方法的有效性,相比基线方法,在多个事实一致性指标上有所改进。
- E$^{2}$GAN: 图像到图像翻译的高效 GAN 训练
通过利用大规模的文本到图像扩散模型进行数据提炼,我们提出了一种更高效的方法,通过精细调整通用化特征的基础生成对抗网络模型,而不是重新训练整个基础模型,并采用简单但有效的秩搜索过程来进行低秩适应,从而显著减少了培训成本和与每个概念相关的存储, - 远离数据:自回归数据精炼
我们研究了自回归机器学习任务的数据精简,其中输入和输出具有严格的从左到右的因果结构。具体而言,我们提出了 Farzi,它将事件序列数据集汇总为少量的合成序列 --Farzi 数据,这些数据经过优化,以保持(如果不是提高)与在完整数据集上训练 - 探索多语言文本数据蒸馏
通过使用基于语言模型的学习方法,我们在多语言文本分类数据集上提出了几种数据蒸馏技术,来增强文本数据蒸馏领域中的跨体系结构泛化能力,并分析了它们在分类强度和跨体系结构泛化方面的性能,也研究了这些方法生成的数据摘要的语言特定公平性。
- MM核心、数据与物理
NTK 方法是解决机器学习中一般无法解决的问题的可行核心公式的理解,主要应用于数据精炼和对抗鲁棒性,还讨论了感知偏差的示例。
- 重复随机抽样减少学习时间达到准确性
本文研究了训练神经网络的数据选择方法,提出了一种名为 RS2 的方法,利用随机抽样的方式显著提高了数据训练的效率,并在四个数据集上得到了验证。
- CVPRTDT: 从未标注的视频中教授检测器跟踪技能
本文提出了一种基于数据蒸馏的跟踪器,通过使用训练于 Re-ID 数据集的嵌入网络生成伪标签来增强检测数据集,从而同时实现了快速和高质量的多目标跟踪。
- ECCVR2L: 将神经辐射场精炼为神经光场以实现高效的新视角合成
本文介绍一种新的深度残差 MLP 网络用于学习 Neural Light Field(NeFL),通过从预训练的 NeRF 模型中转移知识进行数据精馏,以此消除 NeRF 的迭代采样问题,在合成和现实场景下的实验结果表明,与其他算法相比,我 - 利用梯度匹配和隐式微分来学习生成合成训练数据
本文探讨了各种数据蒸馏技术,包括基于生成式教学网络、梯度匹配和隐函数定理的新方法,实验表明这些新方法比以前的方法更具计算效率并提高了在 MNIST 图像分类问题上训练模型性能。
- 文本分类的数据精炼
本研究提出了一种新的数据蒸馏方法,使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集,结果显示使用压缩后的数据集,在保持准确度的前提下只占原始数据集的 0.1%,获得了 90% 左右的性能。
- 使用小型代理数据集加速超参数搜索
论文介绍了一种通过生成小型的代理数据集来加速机器学习模型训练的方法,并将其与基于完整数据集训练的基准模型进行了对比,实验证明该方法能够提高模型训练效率并得到高质量的实验结果。
- AAAIDDFlow: 用未标注数据蒸馏学习光流
DDFlow 是一种基于数据净化的方法,可从未标注的数据中学习光流估计。该方法使用可靠的预测来指导学生网络学习光流,并能够为被遮挡像素进行光流估计,从而实现了更高的准确性。在 Flying Chairs、MPI Sintel、KITTI 2 - 数据蒸馏:走向全监督学习
通过数据精炼方法,利用所有可用的标记数据和互联网规模的未标记数据,从而超过单纯使用有标记数据的最新颖全监督式监督学习方法。
- 对话生成中的特定性控制数据精炼
本研究提出了一种基于神经网络的对话代理方法,通过数据精简和模型训练相结合的方式,使得该代理能够根据输入上下文自动调整回复的具体程度,同时使用增强学习系统从多个生成模型中选择最适合当前输入的模型,从而生成更有趣、更高质量的回复。
- 可解释分类的原型选择
该论文探讨了基于模板方法选择数据集中的样本子集,以在分类场景下实现数据精简,即挑选代表性样本集合进行分类任务的研究,并提出了一种基于集合覆盖优化的方法来解决这一问题。