- 基于 GPT 的需求工程培训引导面试脚本生成器
为了解决需求工程培训中教学材料匮乏的问题,本研究开发了一种专用的 GPT 代理人用于自动生成面试脚本,并通过标准的自然语言生成评估指标和专家判断研究来确认其在需求工程培训中的适用性。
- 外向还是内向?控制你的大型语言模型的个性
大型语言模型 (Large language models, LLMs) 的个性控制是一个关键研究领域,本研究通过综合调查发现,使用 PISF 策略对 LLMs 进行个性控制是最有效和最稳健的方法,具有高效性、高成功率和高鲁棒性。即使在相反 - 单个 GPU 上 3.29 秒达到 CIFAR-10 的 94% 准确率
以 CIFAR-10 数据集为例,本研究通过引入训练方法,利用单个 NVIDIA A100 GPU 在 3.29 秒内达到 94% 的准确率,在 10.4 秒内达到 95%,在 46.3 秒内达到 96% 的准确率,其中水平翻转增强的非随机 - LlamaFactory: 统一高效微调 100 + 语言模型
LLamaFactory 是一个统一的框架,集成了一套先进的高效训练方法,用户可以通过内置的 Web 界面 LlamaBoard 灵活地自定义 100 多个大型语言模型(LLMs)的微调,我们在语言建模和文本生成任务上经验性地验证了该框架的 - 揭秘:调查检索增强生成中的注意力精简
通过注意力蒸馏机制,综合评估了提取增强模型的工作流程,明确了影响检索 - 增强语言模型学习质量的关键因素,并提出了优化模型训练方法和避免无效训练的指标。
- 金融领域大型语言模型综述
金融领域的大型语言模型(LLMs)较少研究,本文综述了金融 LLMs 的历史、技术、性能、机遇和挑战,包括训练方法、训练数据和性能评估等关键点。
- 易训练数据在困难任务中的非常有效性
通过对容易和困难数据进行简单的训练方法、线性分类器头和 QLoRA 的易变难泛化,以及使用不同硬度度量的实验验证,我们得出了在语言模型中易变难泛化意外地很强,表明可扩展的监管问题可能比之前认为的更容易。
- 人工神经网络的无误训练
传统的人工神经网络训练方法无法系统地实现大数据的零错误率。一种新的训练方法包括三个步骤:首先从传统训练的参数创建一个辅助数据,其对应于克隆数据的损失函数的全局最小值;其次,创建辅助数据和原始数据的一个参数连续(混合);第三,通过保持每次迭代 - 扩散模型的推断稳定性
提出了一种新的序列感知损失函数,以减小估计误差从而提高采样质量,并通过实验证明了该方法相比于传统损失函数在图像泛化质量方面的显著改进。
- 大脑解码深度神经网络
我们开发了一种工具,通过将大型预训练视觉模型映射到大脑上,从而揭示其隐藏在内部的信息。我们的创新提出了一种令人惊讶的使用大脑编码的方法:预测大脑在图像刺激下的功能磁共振成像测量。我们报告了两个发现:首先,对于空间、层级、尺度和通道的大脑和深 - EMNLP不浪费任何一个注释:通过软标签改进单标签分类器
本文主要研究了数据注释和训练方法在客观单标签分类任务中的局限性,并提出了使用软标签的方法来改善性能。
- SMURF-THP:基于得分匹配的变压器霍克进程不确定性量化
我们提出了 SMURF-THP,一种基于得分的学习方法,用于学习 Transformer Hawkes 过程并量化预测不确定性。通过学习到的得分函数,我们可以从预测分布中采样事件的到达时间,从而计算生成样本的置信区间,实现了对不确定性的量化 - 提升 LDPC 码的学习以改善误差地板性能
通过训练方法优化神经最小和(NMS)解码器,有效降低 LDPC 码的误差底线现象,并获得最佳的误差底线性能。
- 用知识图谱交错生成对抗网络支持图书封面设计创意
使用生成对抗网络与知识图谱相结合的方法,通过不同的训练方法生成更好的书籍封面,并利用训练阶段得到的判别器选择最佳的生成图像,相比之前的尝试,我们的方法在生成书籍封面方面表现更好,而知识图谱则为图书作者或编辑提供了更多选择。
- 有针对性的背景去除创造了可解释的特征可视化
本研究利用背景删除技术作为强健训练的方式,探索性地修改了训练过程,从而提高了黑盒子机器学习模型特征可视化的解释能力,并验证了此假设通过四种不同的训练方法。图像的特征可视化结果表明,使用背景删除图像比使用未修改数据的模型的改进更为显著。
- ACL使用 CamemBERTa 进行高效的法语语言建模
介绍了一种基于 DeBERTaV3 架构和训练目标的法语 DeBERTa 模型 CamemBERTa,通过在各种法语下游任务和数据集上的性能评估,证明了该模型在训练令牌相同的情况下优于大多数基于 BERT 的模型,并且在性能上与 Camem - GAN 和标准化流的生成建模的精准 - 召回分歧优化
我们提出了一种新颖的训练方法,通过显式优化用户定义的精度和召回之间的权衡,通过对 PR-divergences 中唯一的 f - 散度进行最小化来实现指定的精度 - 召回权衡,从而改善了现有先进模型的性能,如 BigGAN。
- 卷积神经网络初步凝结的理解
本研究探讨了卷积神经网络在小初始化和梯度训练方法下内核权重的凝聚现象,实验证明该现象在卷积神经网络中同样存在且显著。理论上,本研究证明在有限的训练期间,具有小初始化的两层卷积神经网络内核将收敛至一个或几个方向,为对具有专业结构的神经网络表现 - 训练神经网络以在近似硬件上执行
研究表明,近似计算方法在深度学习中具有巨大潜力,尤其适用于受电源预算限制的便携设备的推理任务,但由于缺乏针对近似计算的训练方法,其潜力尚未得到充分发挥。本文提出了近似硬件训练的方法,并演示了这些方法如何专门针对近似硬件进行训练,并提出了加速 - 基于重新加权的类内鲁棒优化的群体公平正则化
提出一种融合分布式鲁棒优化(DRO)框架和公平度量的基于迭代优化算法的方法,称为 FairDRO,通过自动产生正确的重新加权为每个组来最小化该方法,实验结果显示我们的方法在准确性公平交换上,相对于近期的强基线方法在多项基准数据集上表现出具有