- KDD化学 LLM 是否能从信息传递中受益
预训练语言模型和信息传递神经网络在处理分子文本和分子科学领域展示了显著的能力。本文提出了两种策略来评估信息整合是否能增强性能:对比学习和融合,经实证分析表明,当应用于较小的分子图时,整合方法相比基准模型表现出优越性能,而当应用于大规模图时, - COLING局部差分私有化上下文学习
基于预训练语言模型和隐私保护的局部差分隐私框架中的语境学习(ICL)的分析研究
- SIGIR大规模流式密集检索的格子衬衫
PLAID SHIRTTT 是 ColBERT 的扩展版本,使用预训练语言模型实现了高效的排名。通过多阶段的增量索引和层次分片,解决了 PLAID 在流式场景下性能下降的问题,并在不同规模和多语言环境下进行了有效性验证。
- ACLGraSAME:通过图导引的自注意机制向预训练语言模型注入标记级结构信息
该研究提出了一种名为 GraSAME 的新颖图导向自注意机制,无需额外对齐或连接,将结构信息无缝地融入预训练语言模型,有效地解决了图结构与文本之间的模态差异问题,实现了动态的图神经网络与预训练语言模型的交互,并在图文生成任务中表现优于基线模 - 参数高效的准正交微调:基于 Givens 旋转方法
通过引入准 Givens 正交微调(qGOFT),本文旨在提高 Fine-tuning 中的参数效率,并增强其适应各种下游任务的能力。在实验中,我们使用不同的任务和预训练语言模型验证了我们方法的有效性。
- Aurora-M:第一个根据美国行政命令进行红队测试的开源多语言模型
Aurora-M is a multilingual open-source pretrained language model that addresses challenges such as limited multilingual - CVPR借助语言引导监督增强视觉持续学习
利用预训练语言模型(PLMs)中的语义知识替换持续学习(CL)中的分类器,生成对每个类别的语义目标作为监督信号,以减少遗忘并促进知识传递。
- COLING通过决策边界感知的数据增强在低资源环境中提高效果和鲁棒性
该研究提出了一种基于决策边界的数据增强策略,利用预训练语言模型来提高鲁棒性;该技术首先将潜在特征接近决策边界,然后通过重构生成一个带有软标签的模糊版本,并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相 - COLING利用语言增强的嵌入技术进行开放信息抽取
自然语言处理中的开放信息提取(OIE)通过引入预训练语言模型和语言特征,通过 Seq2Seq 预训练语言模型提升 OIE 架构性能,并在性能评估中获得了 24.9%、27.3% 和 14.9% 的改进。此外,还介绍了其他挑战,如利用语义依赖 - 评估预训练句子嵌入的无监督降维方法
使用预训练语言模型(PLMs)生成的句子嵌入引起了自然语言处理界的广泛关注,因为它们在多种下游应用中以优越的性能表示文本。然而,当在内存或计算受限设备中表示大量句子时,由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案,我们评估了 - ACL预训练语言模型在低资源文本上的泛化和稳定调优
基于注意力引导的权重混合和双层优化框架,我们提出了一种用于预训练语言模型的微调方法,以解决在低资源数据集上微调模型时的不稳定性和过拟合问题,在广泛的实验中验证了该方法的有效性和优越性。
- CVPR利用词性的码书迁移在矢量量化图像建模中的应用
通过预训练语言模型中的先前训练的编码簿以及词性知识作为先验,构建一个视觉相关的编码簿,通过新的编码簿传递网络来实现鲁棒的 VQIM 编码簿学习,实验证明我们的 VQCT 方法在四个数据集上取得了优于现有最先进方法的性能。
- Triples-to-isiXhosa (T2X): 解决低资源凝聚词语数据到文本生成的挑战
本研究针对低资源语言 isiXhosa 进行数据到文本的建模,引入了基于 WebNLG 的新数据集 T2X,开发了一个评估框架来衡量生成的文本准确地描述数据的程度,并探索了从头训练的专用数据到文本模型和预训练语言模型(PLMs)两类方法,发 - ACLSum: 科学出版物面向方面的概述的新数据集
提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum,集成了多个方面的科学论文摘要,通过对预训练语言模型和最先进的大型语言模型(LLMs)的性能进行广泛实验,探索学术领域中抽取式与生成式摘要的有效性,结果证实了在学术领域中端到端 - 借助知识注入和指导增强法院视图生成
Knowledge Injection and Guidance (KIG) is a novel approach that combines Pretrained Language Models (PLMs) with domain k - 为少样本示例选择设计信息指标
我们提出了一种基于复杂性的提示选择方法,用于序列标注任务,该方法通过某些度量标准来对齐测试句子和示例的句法语义复杂性,从而提高预训练语言模型的性能。
- 启发式核心:理解预训练语言模型的子网络泛化
预训练语言模型在语法泛化方面的机制通过探索子网络和注意力机制的角度,提供了更详细的描述。
- 通过事实模板分解减少实体摘要中的幻觉
基于预训练语言模型的实体摘要生成过程中,常常出现虚构信息的问题,为了解决这个问题,我们使用事实和模板的分解结构,提出了一种可解释的框架 SlotSum。该框架首先创建一个模板,然后根据输入文档预测每个模板位置的事实。通过事实和模板的分解,S - 生物医学和临床预训练模型对法语长文档的适应性:一项比较研究
比较了三种适用于长序列模型的适应策略,研究结果表明,用法文生物医学文本进一步预训练英文临床模型,优于将法文生物医学 BERT 转换为 Longformer 架构或从头预训练法文生物医学 Longformer,而对于命名实体识别任务,BERT - 无监督句子嵌入的自适应对比学习重建
我们提出了一种自适应重建对比句子嵌入(SARCSE)框架,通过使用自动编码器对句子中的所有单词进行重建,帮助模型在聚合单词时保留更多细粒度的语义。实验结果表明,与强基准 SimCSE 相比,SARCSE 在 7 个 STS 任务中取得了显着