- TexIm FAST: 基于 Transformers 的文本 - 图像表示用于语义相似度评估
通过自监督变分自动编码器 (VAE) 以及转换器应用的 TexIm FAST 方法提出了一种新的文本到图像方法,可以生成固定长度的表示,消耗内存减少了 75%,有效地用于下游任务,并且在语义文本相似性方面取得了显著改进。
- Diver: 使用基于跨度级互信息验证的大型语言模型解码
使用点对点的互信息评分,我们提出了一种增强大型语言模型解码的新方法:Diver。实验证明,Diver 在性能和适用性方面明显优于现有的解码方法。
- 跨领域图数据缩放:扩散模型案例展示
我们提出了 UniAug,这是一个建立在扩散模型之上的通用图结构增强器,通过预训练的扩散模型进行结构增强,在不同领域的图上实现了性能的持续改进,并在图数据扩展领域展示了首次示范。
- 基于 PPR 的嵌入方法的深度理解:拓扑视角
该研究论文讨论了节点嵌入、个性化 PageRank、图拓扑以及基于 PPR 的嵌入方法对各种下游任务的优势的解释性分析。
- 关于公平表示学习的回归走向
通过重新关注性能在传输任务上的公平代表学习方法的评估协议,我们重新评估了现有的方法,并突出了对于公平代表学习方法来说,与任务无关的学习信号的重要性。
- Atlas3D: 适用于模拟和制造的受物理约束的自支撑文本到 3D 转换
通过使用 Atlas3D 方法,可以生成满足用户设计意图、在交互游戏、具身化 AI 和机器人领域中可靠互动所需的、在物理上稳定的自支撑 3D 模型。
- ICML概念模型中的概念关系理解
使用人类可以理解的概念构建解释的基于概念的可解释性方法为深度学习系统提供了洞察力。通过分析基于概念模型学习的概念表示,我们发现现有的方法缺乏稳定性和鲁棒性,无法准确捕捉概念间的关系。因此,我们提出了一种新算法,利用概念间的关系来提高概念干预 - RaFe:排名反馈改善了 RAG 的查询重写
利用强化学习和公开可用的 reranker 训练的无需注释的查询重写模型,在提升性能方面优于传统方法。
- ACL共享跨语言空间中的对齐探索
利用聚类方法探索多语言模型中的潜在概念,研究多语言嵌入之间的对齐和重叠程度,通过引入两个度量指标 CA 和 CO 进行定量分析,发现网络的深层对齐性较好,模型的微调增强了潜在空间中的对齐性,任务特定的校准有助于解释模型的零射击能力的出现。
- 遮盖图像建模以理解视网膜 OCT
本研究探讨了使用遮罩图像建模来学习视网膜 OCT 图像的表示的有效性。我们利用遮罩自编码器(MAE)这一简单且可扩展的自监督学习方法,在真实世界的临床环境中使用来自 41K 患者的 700K OCT 图像进行训练,得出了有力且通用的 OCT - 基于 Prompt 的时空图迁移学习
提出了一个基于提示增强的跨时空图转移学习框架,适应数据稀缺领域中的多样任务,在三个下游任务预测、克里金插值和外推中明显优于现有基线方法。
- 探索文本生成的屏蔽语言建模和因果语言建模
这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现,发现掩码语言模型在生成文本时具有更好的质量和连贯性,并且对下游任务的性能没有明显影响,从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。
- MM高维嘈杂数据的核谱联合嵌入:利用双陆标积分算子
提出了一种新颖的核谱方法,用于在捕捉非线性结构、考虑噪音和高维度效应、适应信号和样本大小不平衡以及结果解释困难等方面,实现两个独立观测的高维噪音数据集的联合嵌入,从而获得低维嵌入,可用于聚类、数据可视化和降噪等下游任务。
- Hummer: 朝着有限竞争偏好数据集的方向
引入了一种新的统计度量指标,即 Alignment Dimension Conflict,用于量化偏好数据集内部的冲突程度。提出了 Hummer 和 Hummer-F 这两个创新的成对偏好数据集,并开发了 HummerRM 和 Hummer - 多空间投影和提示融合的高效提示调整
通过多空间投影和提示融合的方式,我们提出了一种高效的提示调整方法(EPT),旨在解决平衡准确性和效率的问题,同时提升语言模型在不同下游任务上的表现。实验结果表明,相对改进百分比高达 28.8%,训练时间减少了 14%。
- 设计合理思考:关于结构化提示对消除语言模型偏见的有效性的思考
通过系统评估多种 LLM 模型和不同提示策略的方法,我们展示出基于第二系统推理提示的复杂方法在减少偏见的平均输出中表现更好,对下游任务具有竞争性能,这为以最终用户为焦点的评估框架在 LLM 使用方面提供了研究方向和潜力。
- IGOT:针对域自适应预训练的信息增益优化分词器
使用信息增益优化的分词器 (IGOT) 在特定领域下进行持续预训练可提高训练效率与性能,降低收敛半径与收敛点。
- 深度学习表示的自监督视觉语言对骨 X 射线分析的对齐
该研究提出了利用骨骼 X 射线与法语报告的视觉语言预训练来解决骨 X 射线影像学的下游任务。提出了一个实用的处理流程来对法国医学报告进行匿名化和处理。预训练包括来自深度模型编码器的视觉和文本嵌入空间的自我监督对齐。结果的图像编码器用于处理各 - CVPR构建通用 3D 大规模感知强预训练基准
通过构建一个 CSC 框架,我们综合使用视觉基础模型提供的语义线索和多模态信息的知识丰富的跨场景原型,实现了一种具有各种下游任务的更少微调工作量的通用 3D 预训练模型。
- ACL表格数据任务的自动提示生成系统
通过创新自动生成系统,本文提出了两种新方法:一种基于强化学习的算法用于识别和排序与任务相关的列,另一种基于单元格相似性的方法用于增强少样例选择,该方法在 66 个数据集上经过了广泛测试,并使用两个不同的大型语言模型(Google flan-