- COLT: 面向大型语言模型的完整性导向工具检索
通过 COLT 模型,可以实现与用户查询语义相似并具有协同关系的工具的检索,该模型在工具检索方面的性能超过了参数更多的 BERT-large (340M) 模型,并公开发布了 ToolLens 数据集以支持进一步的工具检索研究。
- DreamMatcher: 外貌匹配自注意力用于语义一致的文本到图像个性化
T2I 个性化通过语义匹配替换目标值与参考值,将 T2I 个性化重新构想为语义匹配,避免破坏预训练模型的多样性能力,并引入了一种语义一致的遮罩策略以隔离个性化概念与目标提示之外的无关区域。
- ACL以语言处理任务为基础的参数高效对话推荐系统
使用预先训练的语言模型以自然语言表示项,通过语义匹配进行项目推荐和对话生成的统一模型 PECRS,在两个基准数据集上的实验证明了其在推荐和对话方面的有效性。
- 金融监管的自然语言处理
本文介绍了自然语言处理技术在金融监管框架中的应用,特别是在没有可用于监督学习的数据集时进行规则和政策的语义匹配搜索。我们概述了如何通过使用免费资源超越简单的预训练句子变换模型,并解释了自然语言处理的关键组成部分背后的数学概念。
- AE-smnsMLC:产品属性值提取的带语义匹配和负标签抽样的多标记分类
本文将产品属性值的提取任务重新定义为一个多标签分类任务,并提出了一种带有语义匹配和负标签采样的分类模型,实验证明该模型在真实世界的电子商务数据集中表现出有效性和优越性。
- 超越语义:学习行为增强的相关性模型与自监督学习
我们提出了一种 Behavior Augmented Relevance Learning 模型,通过利用邻居查询和邻居项来补充目标查询 - 项语义匹配,从而改进了 Alipay Search 的准确性和鲁棒性。实验结果显示我们的提案在低延 - 探索农业自然语言处理的新前沿:探究大型语言模型在食品应用中的潜力
本文探究使用与食品相关的语料库对预训练基于 Transformer 的语言模型进行预训练的有效性,并利用外部知识源,如 FoodOn 本体论,对此任务进行微调,提出使用基于 GPT 模型作为基线和利用 ChatGPT 作为外部知识源进行研究 - ACLRE-Matching:针对零样本关系提取的细粒度语义匹配方法
该研究主要针对零样本关系提取中的语义匹配问题,通过设计一种细粒度语义匹配方法,将句子级相似度分成实体和语境匹配分数,并通过特征蒸馏模块自适应识别与关系无关的特征,从而提高匹配率和推理速度。
- 结构语义匹配实现联合事件抽取
本研究提出了一种基于深度学习的 NLP 模型,利用语义类型嵌入和动态结构编码器模块进行事件抽取和论证角色提取,用于信息抽取的关键任务之一的事件提取,并在 ACE2005 数据集上取得了显著的性能提升。
- 一种简单的即插即用无监督句子表示增强方法
本文提出了一种名为 Representation ALchemy (RepAL) 的极其简单的后处理方法,它通过去除句子嵌入中的冗余信息增强了句子表征,该方法无需训练即可直接应用于大多数现有的无监督句子学习模型,从而有助于现实场景下的语义匹 - SimSC:基于温度学习的语义对应简易框架
本文提出了一个名为 SimSC 的简单框架,通过在特征骨干基础上进行语义匹配来解决问题。通过设置适当的 softmax 温度,可以缓解过度平滑匹配度分布并改善特征质量,使用学习模块来预测优化温度,该模块与骨干和温度一起在线更新,易于与各种类 - TagCLIP:提高开放式语料库语义分割的区分能力
本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题,提出了一种名为 TagCLIP 的改进方法,通过引入一种名为 trusty token 的可信标记,成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 - 感知微妙冲突的双路径语义匹配建模
提出一种基于双路径建模框架的 Transformer 模型,分别对语义关系的相似性和差异性进行建模,以增强模型感知句对中微妙差异的能力,实验结果表明,该模型与基线相比表现出更加一致的提升。
- ICLRUniKGQA:基于知识图谱的多跳问答统一检索与推理
UniKGQA 是一种新的多跳知识图谱问答方法,通过统一检索和推理模型架构和参数学习,基于预训练语言模型的语义匹配模块和匹配信息传播模块进行问题与关系的语义匹配,采用共同的预训练任务和检索以及推理定向的微调策略。
- EMNLPMedCLIP: 对未配对的医学影像和文本进行对比学习
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人 - EMNLP通过依存增强预训练模型和自适应融合来提高语义匹配
该论文提出了一种将依赖性结构有效整合到预训练模型中用于更好地建模复杂语义匹配关系的方法,即依赖增强自适应融合注意力方法(DAFA),并将其应用在 BERT 上,在 10 个公共数据集上实现了最先进或具有竞争性的性能。
- COLINGDABERT:用于语义匹配的双重注意力增强 BERT
本文提出了一种新的 Dual Attention Enhanced BERT 模型来提高 BERT 对句子对微妙差异的捕捉能力,该模型包含双重关注模块和自适应融合模块,可以显著提升在语义匹配领域的表现。
- 域和相关性分离建模用于可适应的密集检索
提出一种名为 Disentangled Dense Retrieval(DDR)的新型 Dense Retrieval 框架来支持 DR 模型的有效和灵活的领域自适应,该框架包括一个 Relevance Estimation Module( - CSSAM: 通过代码语义和结构的关注匹配进行代码搜索
本文提出了一个名为 CSSAM 的代码搜索模型,该模型引入了语义和结构匹配机制,实现了跨序列的高纬度空间对齐,并使用残差相互作用和代码语义表示图等方法增强了代码和相应查询文本之间的粘合度。实验结果表明,CSSAM 在两个公开数据集上显著优于 - CLUE 语义匹配挑战第一名:Erlangshen 预训练语言模型和倾向性校正损失
本篇报告介绍了一个预训练语言模型 “Erlangshen” 及其在 CLUE 语义匹配挑战赛中最高得分的方法,其采用基于整词屏蔽的动态遮蔽策略和倾向性校正损失,在测试集上获得了 72.54 的 F1 分数和 78.90 的准确率。