- MM-Retinal: 知识增强的基础预训练及其在眼底图像文本专业领域中的应用
提出了 MM-Retinal 基金 us 图像分析模型,该模型通过多模态数据集以及 KeepFIT 知识增强基础预训练模型,实现了六个未见任务中的最先进性能,并在零样本和少样本场景中展现了出色的泛化能力。
- SignLLM:手语制作大型语言模型
本研究介绍了 Prompt2Sign,第一个全面的多语种手语数据集,此数据集包括美国手语和其他七种手语。我们还提出了 SignLLM,第一个多语种手语生成模型,包括两种新的多语种手语生成模式。基于该数据集,我们展示了 SignLLM 的基准 - 众工合力:面向任务的模块化专家混合对话系统
通过使用一组专家混合集成方法,提出了 SMETOD 任务导向对话系统,其中可以优化子问题的结果并为任务导向的对话生成专业化输出,这样既能扩展对话系统又能保持推理效率,并在多项指标上实现了最先进的性能。
- CVPR任何身份的生成去学习
我们提出了一种名为 Generative Unlearning for Any Identity (GUIDE) 的新框架,在人脸等涉及隐私问题的领域中实现了生成性身份去除,并在生成机器去除任务中取得了最先进的性能。
- 图像转伪情节:通过无标签数据增强少样本分割
使用未标记数据生成伪序列的一种新方法,可提高少样本分割模型的泛化能力,取得了准确性方面的最新成果。
- CDFormer:盲目图像超分辨率中融合扩散模型的退化预测
提出了一种新的盲超分辨率方法 CDFormer,通过捕捉降解和内容表示来改善图像质量,实验结果表明 CDFormer 在不同基准测试中表现出了最先进的性能。
- UniDM:面向大语言模型的数据操作统一框架
研究通过利用大语言模型(LLMs)和自动化上下文检索,设计了一个统一框架 UniDM,用于解决数据操作任务,并在各种基准测试中展现出极高的通用性和先进性能。
- 多流关键点注意力网络用于手语识别和翻译
提出了一种多流关键点注意网络,用于描述由现有的关键点估计器生成的关键点序列,并通过额外的翻译网络将其扩展为一种手语翻译模型,实现了 Phoenix-2014T 手语翻译任务的最新技术水平。
- ADELIE:信息抽取中的大型语言模型对齐
使用 ADELIE 模型与高质量对齐数据集 IEInstruct 进行指令调整和直接优化,实现了信息抽取任务的最新性能,并探索了 ADELIE 的通用能力。
- 部分指纹的身份验证和相对姿态的联合估计
基于多任务 CNN-Transformer 混合网络,本研究提出了一种联合估计部分指纹的身份验证和相对位姿的方法,旨在利用它们之间的固有相关性相互改进,实验结果表明,该方法在部分指纹验证和相对位姿估计方面取得了最先进的性能。
- 通过双边调制的场景自适应人物搜索
通过引入双边调制来减少背景噪音和前景噪音,维持一致的人员表示并适应不同场景,提出了一种场景自适应人员搜索(SEAS)模型。SEAS 模型可以在两个基准数据集上取得最先进的性能,其中 CUHK-SYSU 有 97.1% 的 mAP,PRW 有 - 基于最后卷积层输出的高维特征子空间投影的异常检测
这篇论文集中在最后的卷积层输出的高维特征上,通过将这些高维特征投影到两个具体的特征子空间,借助网络的线性层的降维能力来识别产生在训练分布之外的数据,从而实现可靠的模式分类检测。我们的方法不需要输入预处理或特定的数据预调优,通过修改全连接层之 - 密集细节点描述的潜指纹匹配
本研究提出了一种基于深度学习的密集细节点描述器(DMD)用于潜指纹匹配,提高了性能并实现了与以往方法相比更具代表性和可解释性。
- CRE-LLM:现领域中文关系抽取框架与精调大型语言模型
该研究提出了一种将大型语言模型与三元组结合的新方法,名为 CRE-LLM,用于处理语义更加复杂的领域特定关系抽取任务,并在 FinRE 数据集上取得了最先进的性能。
- 窗口移动的蛇形模型:学习自适应血管模式用于 OCTA 分割
使用 Swin-Transformer 和可变形卷积的 SSW-OCTA 模型,成功分割了光学相干断层扫描血管造影图像中富有复杂形状的视网膜结构,并在 OCTA-500 数据集上达到了最先进的性能水平。
- 在 GSM8K 上达到超过 97%:深入理解问题使 LLMs 成为完美的推理者
我们提出了一种名为深度理解问题(DUP)提示的新型提示策略,用于增强 LLMs 对问题的全面理解。实验结果表明,DUP 提示在各个数据集上明显优于零 - shot CoT,并在 SVAMP(90.4% 至 94.2%)和 GSM8K(94. - 多模态关系抽取的变分多模态超图注意力网络
提出了一种用于多模态关系提取的变分多模态超图注意网络(VM-HAN),通过利用图像信息在文本中识别实体间的关系,构建了每个句子的多模态超图,并利用高斯分布实现了实体对之间的代表性多样性,从而在多模态关系提取任务中取得了最先进的性能。
- CVPR对比均移学习用于广义类别发现
我们提出了一种名为对比均值漂移(CMS)学习的方法,该方法在泛化图像聚类问题中使用经典而强大的均值漂移算法,并结合对比学习框架,通过均值漂移和对比更新的迭代过程来训练图像编码器,以产生具有更好聚类特性的表示。实验证明,在六个公共泛化类别发现 - 面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练
在本文中,我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线,它包括 Multi-scale Contrastive Text-audio Pre-training(MC-TAP)协议和并行化的 TTS 前端模型,通过在无监督 - MING-MOE:稀疏低秩适配器专家混合增强大型语言模型中的医学多任务学习
MING-MOE 是一种基于混合专家(MOE)的医学大型语言模型,通过 Mixture of Low-Rank Adaptation(MoLoRA)技术,在不需要特定任务注释的情况下处理复杂多样的医学任务,从而在超过 20 个医学任务上取得