- ACLIITK 参加 SemEval-2024 任务 1:对比学习和自编码器用于多语言文本的语义文本相关性
该研究描述了我们为 SemEval-2024 任务 1 开发的系统:语义文本相关性。该挑战主要关注在包括亚洲和非洲的高资源和低资源语言在内的 14 种语言中自动检测句子对相关性的程度。我们团队参与了两个子任务,包括监督式轨道和非监督式轨道。 - SQL-Encoder: 基于上下文的编码器改进 NL2SQL 中的上下文学习
本文研究了在上下文学习模型中选择示例的结构相似性检测,并提出了一种准确估计这种相似性的模型,通过在训练语义预测模型的精心策划的 170k 个问题对中利用基于 SQL 查询的相似性度量。全面的评估结果表明,所提出的模型在捕捉问题间结构相似性方 - 基于预训练大型语言模型的多模态推荐零样本
利用生成型 AI 领域的最新进展,我们提出了一种用于零样本推荐多模态非稳态内容的方法。我们将不同类型的输入呈现为文本描述,并利用预训练的 LLMs 通过计算语义嵌入来获取它们的数值表示。一旦获得了所有内容项的统一表示,可以通过计算它们之间的 - 利用 Transformer 根据出版数据映射研究人员活动
本研究应用基于 Transformer 的预训练语言模型 BERT 探究了本地出版数据库中的科研话题,并通过计算文章相似度对研究人员进行了聚类,引入了作者自相似概念以表示他们的主题变化。
- 基于 t-vFM 相似度的鲁棒特征学习方法用于连续学习
本文提出使用不同的相似性度量方法来替代余弦相似性,以学习更加健壮的表示形式,从而提高连续学习中的图像分类任务的效果。
- 文本和知识图谱的联合表示用于检索和评估
本文提出一种利用对比训练和数据增强技术在 KB 图和文本对之间训练嵌入模型,以获得对齐的跨模态表示,进而 fine-tune 可以与人类判断相匹配的相似度度量,最终在无需参考文本的情况下超过或匹配现有的基准度量。
- M$^3$Care:多模式医疗数据中的缺失模态学习
使用缺失模态下的相似度度量与患者邻居的信息进行相关任务的模态补齐模型在多模态医疗数据的临床分析中表现优于现有方法,发现与医学知识一致的结果。
- MetricBERT:通过自监督三元组训练学习文本表征
本文介绍了一种基于 BERT 的模型 MetricBERT,该模型通过学习嵌入文本并同时遵循传统的掩码语言任务,以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务,表明 MetricBERT 在超越其他最先进的替代方 - ACL使用平行语料库进行基于原则的释义生成
本文针对往返机器翻译产生的模棱两可的翻译问题,提出了一种基于信息瓶颈的对抗式训练方法。该方法将引入一个可调整的参数来平衡准确性和多样性,并在实验中获得更好的效果。
- CVPR表示、比较和学习:基于相似度意识的类别不可知计数框架
本研究提出了一个相似性感知的类不可知计数 (CAC) 框架,它同时学习了特征表示和相似度度量,并通过一个叫做 BMNet 的基线和一个叫做 BMNet + 的扩展模型对其进行了实例化,以 FSC147 数据集为实验基础,证明了该模型显著优于 - 基于结构相似性的多模态遥感图像鲁棒配准
本文提出一种基于图像结构属性的新型特征描述符 HOPC 和相似度度量方法 HOPCncc,用于在多模式遥感数据(如光学、LiDAR、SAR)之间进行自动配准,试验表明,在匹配性能方面,HOPCncc 具有鲁棒性并优于基于 NCC 和互信息的 - 音乐相似度的解耦多维度度量学习
本文介绍了一个新的多维相似度度量方法,通过深度度量学习和基于音轨的信息相结合,将全局和专业的相似性策略融合在了一起,使得音乐相似度搜索的结果更准确。作者在用户研究中证明了该方法具有显著性能优势。
- LSD-C: 线性可分深度聚类
LSD-C 是一种新的无标签数据聚类方法,基于相似度度量在特征空间中建立样本之间的成对连接,然后将连接的样本重新分组为聚类,并在聚类之间加强线性分离。该方法借鉴了半监督学习的最新实践,将聚类算法、自监督预训练和强数据增强相结合,证明其在流行 - CVPRProAlignNet:无监督学习逐步对齐噪声轮廓
提出一个新的 ConvNet 模型 ProAlignNet,通过使用局部相关的相似度度量来训练,能够有效地解决非全局对齐的边缘形状对齐问题,在现实场景下的两个应用中得到了优于现有方法的结果表现。
- CVPR使用卷积神经网络进行快速对称形变图像配准
本研究提出了一种新颖、高效的非监督对称图像配准方法,通过在微分同胚映射空间内最大化图像之间的相似度,同时估计正向和反向变换来实现高精度的配准,同时保持所需的微分同胚特性。
- 对使用人工监督的 COMPAS 数据学习公平度量的实证研究
本研究通过收集新的人员判断数据,尝试从人员标注数据中学习类似度度量,以实现个人公平性。研究结果表明,所学度量优于欧几里得度量和精度度量,并为学习诸如个人公平度量之类的度量提供了一种工具。
- 度量学习用于个体公平性
提出了一种基于人类判断的 “个体公正” 近似度量的解决方案,该模型假定我们可以获得人类的公正裁决者,其可以回答关于特定任务的个体相似性的有限一组查询,该模型包括相关的度量逼近定义,逼近构造和学习程序。
- 图像检索中的文本与图像构成 - 实证之旅
本文提出了一种基于图像和文本相结合的检索方法,利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述,并在三种不同数据集上进行了验证,证明了该方法在输入查询分类和图像检索方面的有效性。
- NIPS范数范围局部敏感哈希用于最大内积搜索
该研究提出了 Norm-ranging LSH 的哈希方法,它可以通过将数据集划分为多个子数据集,为每个子数据集建立一个哈希索引,改善 Simple-LSH 中长尾规范化问题,并且证明 Norm-ranging LSH 具有比 Simple - 在潜藏度量空间中学习多语言词向量:一种几何方法
本文提出了一种新的几何方法,通过单语嵌入和双语词典学习双语映射,并将其建模为平滑的黎曼流形上的优化问题,旨在解决双语词典感应和多语言学习中的问题。该方法分解了学习源语言到目标语言的变换,包括学习用于将语言特定的嵌入旋转到公共空间的旋转以及学