- 一种更实用的机器取消学习方法
机器学习中的模型撤销能够有效解决数据隐私问题,本研究通过实证评估表明首次梯度上升法在机器学习中的撤销过程更为有效,突出了其在提升数据隐私和符合法规(如 GDPR 和 CCPA)方面的潜力。
- KS-Lottery: 查找多语言模型的认证彩票
通过使用 Kolmogorov-Smirnov 检验分析微调前后的参数分布变化,我们提出了 KS-Lottery 方法,以识别在多语言微调中非常有效的少数 LLM 参数集。我们进一步从理论上证明了 KS-Lottery 可以在嵌入层中找到被 - 流式推荐系统中具有最小遗憾的动态嵌入尺寸搜索
基于深度学习的推荐系统中,流媒体推荐系统的兴起带来了动态嵌入尺寸搜索的问题,为解决这一问题,本文提出了动态嵌入尺寸搜索(DESS)方法,该方法通过在非静态环境中减小嵌入尺寸选择的后悔度来实现更好的推荐性能。
- 少即是多:优化语言翻译的精简架构
研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架,同时采用张量链来减少嵌入层的超参数,并引入了 H-SoftPOS 当作嵌入层,相较于现有技术在性能和内存成本方面都有显著提高,并命名该体系 - 用于审计数据的无监督异常检测及分类编码影响
本文介绍了车辆索赔数据集,并提出用于表示分类属性的 GEL 编码和嵌入层。通过比较标签,One Hot 编码,GEL 编码和嵌入层,在标记,重建错误,密度估计和对比学习方法上,评估了该数据集的浅层和深度学习方法。
- ACL文本分类任务自适应预训练的简单高效方法
该文章研究了在 TAPT 过程中只训练 BERT 模型的嵌入层对模型性能的影响,并提出了一种简单的方法来使 BERT 模型在中间步骤更加高效,该方法是培训 BERT 模型的嵌入层,可以适应目标领域的词汇并达到可比较的性能。
- ACL拼字比赛中的模型:语言模型隐式学习到了单词字符组成
通过分析预训练语言模型的嵌入层,研究表明该模型对于整词和子词令牌的内部字符构成也有很高的学习能力。虽然该模型没有直接使用字符信息,但它仍然能够拼写正确达到整体词汇量的三分之一,并在所有令牌类型上达到了高平均字符模型重叠度。而且,通过额外的字 - ScaleFreeCTR:基于 MixCache 的 CTR 模型分布式训练系统与大规模嵌入表
本文提出了 ScaleFreeCTR—— 一种基于 MixCache 的 CTR 模型分布式训练系统,旨在解决采用模型并行的推荐分布式训练平台中的性能瓶颈问题,并通过全面性能和消融实验表明了其有效性和高效性。
- ACL多模态预训练揭示:视觉和语言 BERT 的元分析和统一框架
本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验,分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究,揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因,同时将两类网络统一在同一 - ACL不使用嵌入的神经机器翻译
通过实现以字节作为序列的计算机文本的表示,同时将深度学习模型中的嵌入层替换为每个字节的一热表示,可以在不影响模型性能的情况下,将最先进的机器翻译模型推广到字节级别。
- 利用神经网络检测对称性
本文介绍了一种使用神经网络来识别数据集中对称性的方法,并利用嵌入层的结构来识别对称性是否存在以及在输入中对称性的轨道。通过分析输入中的不变轨道,确定所存在的连续或离散对称群,并使用图表述的方式对完全交空间卡拉比 - 雅莫夫流形进行分类,并发 - MM语言模型转移学习到图像描述生成器:更好的模型不一定有更好的转移能力
通过转移神经语言模型的递归神经网络和嵌入层到图像字幕生成器,实现了图像字幕生成的效果优化,证实使用转移学习的方法在同一字幕数据集上预训练图像字幕生成器时,使用转移参数生成的模型效果更好.
- MEMEN:用记忆网络的多层嵌入进行机器阅读理解
本论文介绍了一种新型的神经网络架构 MEMEN,在 MC 风格的问题回答任务中取得了具有竞争力的结果,并在 TriviaQA 数据集上取得了最新成果。