- 关于最佳多模态嵌入空间的拓扑视角
通过对 CLIP 和 CLOOB 模型嵌入空间的拓扑数据分析,研究探索了多模态模型发展及其下游性能的关联,揭示了嵌入空间中的细微差异,为进一步改进和推进多模态模型研究提供了基础。
- 无监督连续学习中融合现在和过去
我们提出了一种适用于无监督连续学习(UCL)的统一框架,该框架将实时数据和过去数据的特定学习目标区分开来,包括稳定性、可塑性和跨任务整合。我们的方法 Osiris 在分离的嵌入空间中明确优化这三个目标,并在所有基准测试中取得了最先进的性能, - ACL用人类判断调整嵌入空间中可解释维度
使用种子词义空间和人类评价指导相结合的方法,在预测物体属性和风格属性方面,表现出了明显更好的性能,尤其是在种子词义空间不能很好工作的情况下。
- 开发医疗语言模型嵌入空间
我们探索专门为不同医疗数据集调整较小的大型语言模型(LLMs)的专业预训练方法。我们通过传统的掩码语言建模、无监督文本表示的深度对比学习(DeCLUTR)以及利用医疗设置中的元数据类别的新型预训练目标进行了评估。对每个数据集进行了对下游文档 - 基于 Transformer 表示的概率主题建模
我们提出了 Transformer-Representation Neural Topic Model (TNTM),它将基于变压器的嵌入空间中的主题表示优势与概率建模相结合,利用变分自编码器 (VAE) 框架提高推理速度和建模灵活性,实验 - CVPR双重姿态不变嵌入:为识别和检索学习类别和对象特定的区分性表示
提出一种基于注意力机制的双编码器架构,通过特定设计的损失函数,在两个不同的嵌入空间中同时优化类别嵌入和对象级别嵌入,用于姿态不变的物体识别和检索。在三个具有挑战性的多视图数据集上验证了方法的优越性。
- 跨语言迁移中多源语言训练的分析
多语种语言模型,交叉语言迁移,源语言,嵌入空间,语言组合
- ACL基于模态相对预训练的文本到代码生成
通过改变序列令牌的表示方式,依据所属的模态性进行进一步的模型预训练,并在文本与代码生成任务中观察到一致的改进。
- 同性、聚类与分类器
本文讨论嵌入空间是否具有各个维度的均匀性,即是否各向同性,并通过实验证明各向同性会使嵌入空间与聚类不兼容,从而对线性分类目标产生负面影响,同时阐明了之前的研究结果。
- 通过合成异常数据解码数据质量:基于嵌入式指导的代码数据剪枝
利用嵌入空间检测和去除低质量代码数据的研究工作表明,采用合成污染信息的剪枝方法 (SCIP) 在数据清理方面取得了显著的性能提升,并展示了合成污染对数据剪枝的有益见解。
- GARI: 图注意力用于阿拉伯语词向量的相对同构
在 NLP 中,双语词汇归纳(BLI)是一个核心挑战,它依赖于个体嵌入空间的相对同构性。我们提出了 GARI,它将分布式训练目标与由图形注意网络指导的多个同构损失相结合,以控制不同嵌入空间的相对同构性,并考虑了单词的语义变化影响以定义嵌入空 - 领域泛化的鲁棒内部表示
这篇论文是我的关于利用嵌入空间进行迁移学习的全面调查,针对持续学习和有限标记数据的固有挑战提供了综述。通过总结我过去和正在进行的贡献,本文旨在呈现对我研究的整体理解,为未来的探索和领域进展铺平道路。我的研究涉及迁移学习的各种情景,包括少样本 - 现有的超出分布技术适用于网络入侵检测吗?
通过分析网络入侵检测中机器学习的应用,以及探究其他领域中现有的检测器是否能有效识别网络安全新形式的入侵以及改进的嵌入空间如何增强检测,本文发现现有检测器能够辨别出部分新的恶意网络流量,并且改进的嵌入空间能够提升检测性能。同时,简单的检测器组 - 高阶随机行走下分离式对比多视角聚类
通过随机游走在全局范围内逐步识别数据对,DIVIDE 使用新颖的多视角对比学习架构,在不同的嵌入空间中执行视图内和视图间对比学习,从而提升聚类性能,并增加对缺失视图的鲁棒性。
- 视觉 Transformer 中的社会偏见的多维分析
图像模型的嵌入空间已经被证明可以编码一系列的社会偏见,该研究调查了对于视觉转换器(ViT)中出现这些偏见的具体因素,并测量了训练数据、模型架构和训练目标对 ViTs 学习表示中的社会偏见的影响。研究结果表明,基于反事实增强训练的扩散式图像编 - ICCV基于条件交叉注意网络的多空间嵌入,避免仅使用单一网络引入纠缠
我们提出了一种条件交叉注意力网络,通过一个单一的主干网络产生可以区分出对象多个具体属性的解缠多空间嵌入。该方法首先利用交叉注意力机制融合和切换条件信息,通过多样的可视化示例证明其有效性。其次,首次将视觉变换应用于细粒度图像检索任务,并提出了 - 利用加权混合曲率积流形改进异质图学习
本研究通过加权产品流形的数据驱动方法,可以更准确地表示异构图的结构,并从输入数据中学习出更好的图表示,以在多个下游任务中获得更好的性能。
- ACLSamToNe: 提高同塔负样本语义双编码检索模型的对比损失
该论文提出了一种改进的对比损失函数 SAMe TOwer NEgatives(SamToNe),通过在负样本中加入来自同一编码器塔的查询或文档,该方法可以有效提高对称和非对称双重编码器的检索质量,并确保两个编码塔之间的嵌入空间的对齐。通过使 - 方言嵌入空间的变异性和不稳定性
本文研究使用不同区域英语的嵌入空间的变化,并控制嵌入的不稳定性。实验得出结论:培训数据中的方言会对生成的嵌入空间产生显著的影响,并且这种方言差异在词汇的特定部分尤其容易出现变化。这表明方言之间存在语义上的差异,除了之前研究所述的词汇和句法差 - EMNLP用精准的投影方法消除受保护属性:直戳要害
提出了两种方法,即平均投影和图基中位数投影,以消除嵌入空间中的特定信息,与 INLP 进行比较,表明一个 MP 投影可以消除基于目标的线性可分性,并且对总体空间的影响更小,因此单个有针对性的投影(MP)比多个(INLP)投影更为规范。