- PillarNeXt:通过引入 Voxel2Pillar 特征编码和提取多尺度特征改进 3D 检测器
提出的 PillarNeXt 方案利用多线 LiDAR 和基于点云的三维探测器,在自动驾驶中提取多尺度特征,并通过特征编码、骨干网络和网络结构改进来优化性能。
- CVPR从观察者注视中学习:基于人物 - 物体交互识别的零样本注意预测
在这项研究中,我们首先收集了一个名为 IG 的新型凝视固定点数据集,包括来自 740 个不同的互动类别的 53 万个凝视固定点,捕捉到人类观察者在认知互动过程中的视觉注意。然后,我们引入了零样本的面向互动注意力预测任务 ZeroIA,通过挑 - Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成
我们提出了 Dual3D,一种新颖的文本到 3D 生成框架,仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型,通过单个潜在去噪网络可以有效去噪多视图潜在,在 3D 模式下可以生成一致渲染的三面神经表面实现 - ICLR利用众包数据构建一种卢干达语文字转语音模型
通过使用多位相似语调的多说话者的数据进行训练,并应用数据预处理方法来改善语音质量,表明在较少数据的情况下,通过获取多位相似语调的多说话者的数据来提高 TTS 质量的有效性。
- 社交媒体讨论中的词语作为触发点
本文首次系统研究个别单词作为触发点的大规模影响,并通过分析大量社交媒体帖子,揭示这些触发词对用户参与度和在线讨论中的敌对情绪产生明显后果,为计算领域的在线交流研究引入了触发点的概念。
- 基于 LLM(GPT-3)的情感分析的优化技术
本论文旨在探索基于大型预训练语言模型(如 GPT-3)的情感分析优化技术,以提高模型性能和效果,并进一步促进自然语言处理(NLP)的发展。通过介绍情感分析的重要性和传统方法的局限性,介绍了 GPT-3 和微调技术,并详细解释了它们在情感分析 - 隐含篇章关系预测中的句子邻居分析
提出了三种新的方法来整合上下文在句子关系预测任务中:(1)直接邻居、(2)扩展窗口邻居和(3)部分智能随机邻居。研究结果表明,在篇章关系分类任务中,超过一个篇章单元的上下文包含是有害的。
- 基于偏倚和去偏倚的方法实现公平知识传递,用于公平皮肤分析
基于深度学习模型的皮肤疾病诊断中,为了解决公平性问题且不损害预测准确性,我们提出了一种基于两个偏倚的教师模型的方法,通过权重损失函数进行偏倚与去偏倚的训练,提高了模型的准确度和公平性。
- 针对矛盾对话的红队语言模型
通过探索一种新的矛盾对话处理任务,该研究试图检测和修改会话中的矛盾陈述,以减轻当前语言模型在对话中自相矛盾的问题,并通过开发一个数据集和一个 Red Teaming 框架展示了该任务的有效性,强调了在对话式人工智能中逻辑不一致问题的重要性。
- 非光滑非凸优化中的随机放缩和动量
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
- 无边界模型水印易受黑盒去除攻击
针对无盒模型数字水印技术,本研究揭示其易受删除攻击,并提出了一种基于梯度的 EG 还原器、一种基于对手攻击的 EG 还原器以及一种基于私有代理模型的可转移还原器,这些还原器能够成功去除嵌入水印且保持图像质量,实验证明这种攻击的有效性和泛化性 - 评估预测菲律宾学生学术表现的模型中的算法偏见
这篇论文在亚洲学习环境中研究了机器学习模型中的算法偏见问题,通过分析学生活动数据,发现没有针对特定学生群体的等级预测不公平现象。
- 使用 Fréchet 域距离在数字病理学的多实例学习中检测域偏移
多实例学习在数字病理学应用中具有吸引力,但对于临床实际中的领域漂移敏感性问题尚不清楚,本研究通过训练一种基于注意力机制的多实例学习算法,在来自不同国家的医院数据以及对应于不同程度领域漂移的各个子集上进行分类乳腺肿瘤转移的全切片图像,并提出一 - MarkLLM:一个用于 LLM 数字水印的开源工具包
LLM 水印技术已成为减轻大型语言模型潜在滥用的关键之一,而 MarkLLM 作为一个开源工具包,提供了统一而可扩展的框架来实现 LLM 水印算法,并通过用户友好的界面确保易于使用,同时支持自动可视化算法机制,以及 12 个工具和两种类型的 - 推进 DINO 1.5: 开拓开放集合目标检测的 “边缘
Grounding DINO 1.5 是一套由 IDEA Research 开发的先进的开放集合目标检测模型,旨在推进开放集合目标检测的边缘发展。
- 朝着任务兼容性可压缩表示
我们在多任务可学习压缩中识别出一个问题,即为一个任务学习的表示对于不同任务的速率失真性能的正向贡献程度低于预期,解释了这个问题,并评估了在输入重建的背景下这个想法的影响,并将其扩展到其他计算机视觉任务中,实验结果显示在辅助任务的速率失真性能 - 基于比例缩放的卷积神经网络在新生儿脑电图中实现专家级癫痫检测
新生儿癫痫发作的检测模型使用大规模数据和模型规模,达到了国际领先水平,并具有与专家水平的等效性。
- VirtualModel:通过扩散模型生成具有对象识别保持性的人 - 对象互动图片以用于电子商务营销
本文提出了一种用于电子商务营销的虚拟模型框架,旨在生成与产品完全一致的人物图像,并增强人物与产品的合理性和真实性。
- PL-MTEB:波兰大规模文本嵌入基准
该研究介绍了波兰大规模文本嵌入基准(PL-MTEB),它是一个包含 28 个不同自然语言处理任务的全面基准,涉及五种任务类型。研究人员通过波兰 NLP 社区先前使用的数据集对这些任务进行了适应。此外,研究人员创建了一个名为 PLSC(波兰科 - 影响者卡特尔
社交媒体影响者在全球营销中占据越来越大的份额。我们证明了在这个广告市场中存在一种新形式的市场失灵:影响者卡特尔,影响者团体勾结以通过夸大他们的参与度来增加他们的广告收入。我们的理论模型显示,如果影响者卡特尔扩大了社交媒体参与度,以满足目标受