pretrained language models | BriefGPT

关键词pretrained language models

搜索结果 - 458

双栈胜于一：语言建模与翻译作为多语言预训练目标的比较
该研究通过比较多语种预训练目标的方法论环境，观察探索和微调场景下 6 种语言的下游性能，并表明架构决定了最优的预训练目标，而在适当条件下，多语种翻译是一种非常有效的预训练目标。
PDF5 days ago
领域专用或不确定性感知模型：对于生物医学文本分类是否产生实质差异？
通过模型输出概率分布的熵，本研究讨论了预训练语言模型在领域特定的基础模型和生物医学应用中的能力和不确定性意识。
PDF10 days ago
自我翻译训练：一种简单而强大的大型语言模型跨语言转移基准
自我翻译训练是一种简单而有效的方法，利用大型语言模型的翻译能力在目标语言中生成合成训练数据，并用自己生成的数据对模型进行微调，从而在多种非英语语言中展现了显著的性能提升。
PDFa month ago
DiffuseDef: 对抗攻击下的改进鲁棒性
通过结合迁移学习、扰动模型和集成学习技术，我们提出了一种新颖和灵活的文本分类对抗防御方法 DiffuseDef，它在编码器和分类器之间引入扩散层作为去噪器，经过迭代去噪和集成生成鲁棒的文本表示。实验证明，DiffuseDef 在各种对抗性攻
PDFa month ago
基于通用表征的微调网络解决未知认知任务
微调预训练语言模型在广泛的任务上展现出有希望的结果，但面对新任务时，它们更依赖于通用的预训练表示还是开发全新的任务特定解决方案？我们在一个与模型相关且来自神经科学文献的情境依赖决策任务上微调了 GPT-2，并将其性能和内部机制与从头开始训练
PDFa month ago
学它或者离开：模块组合与修剪的连续学习
MoCL-P 是一种轻量级的持续学习方法，通过任务表示引导模块组合和自适应修剪，同时解决避免灾难性遗忘、促进知识转移和保持参数效率等持续学习中的挑战，且在三个持续学习基准测试中达到了最优性能，提高了参数效率，展示了在资源受限的实际应用中的潜
PDFa month ago
ACL预训练语言模型结合知识约束的多语言知识图谱补全
通过引入全局和局部知识约束，本文提出了一种用于多语言知识图谱补全的预训练模型，使其更好地适应 mKGC 任务，并在公共数据集上实验证明该方法在 Hits@1 和 Hits@10 方面的性能优于现有研究，平均提升了 12.32% 和 16.0
PDFa month ago
ACL孟加拉语的背景长度变化特征的实证研究
预训练语言模型存在各种社会偏见，本研究旨在对孟加拉语进行内在偏见测量，探讨现有偏见测量方法在孟加拉语中的必要改进，并研究上下文长度变化对偏见测量的影响，通过实验证明偏见度量指标对于上下文长度存在明显依赖性，在孟加拉语偏见分析中需要细致考虑。
PDFa month ago
GiusBERTo: 意大利审计法院决定中的个人数据去识别的法律语言模型
GiusBERTo 是基于 BERT 模型的首个专用于匿名化意大利法律文件中个人数据的模型，通过在大规模审计法院决定数据集上训练，它能识别需要匿名化的实体，包括姓名、日期和地点，同时保持上下文相关性，并在测试集上实现了 97% 的标记级准确
PDFa month ago
多语言语言模型中选择性知识的跨语言遗忘
本研究论文提出了一种创新的方法，针对多语言语言模型的机器遗忘，通过选择性地擦除不同语言中的信息，同时保持总体性能，有效解决了低资源语言攻击的问题，为安全可适应的多语言语言模型设定了新的标准。
PDFa month ago
ARTIST: 复杂文本图像生成的解耦改进
通过引入一个专门关注文本学习的新框架 ARTIST，有助于提升扩散模型在生成富文本图像时的文本渲染能力，并利用预训练的大型语言模型来解释用户意图，提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明，该方法在各种度量标准上的性能
PDFa month ago
跨界拓展：模型编辑对跨语言性能的影响研究
该研究通过考察多语境下的几种知识编辑技术，战略性地确定了语言平等的需求。我们评估了 Mistral、TowerInstruct、OpenHathi、Tamil-Llama 和 Kan-Llama 等模型在英语、德语、法语、意大利语、西班牙语
PDFa month ago
ShareLoRA: 共享低秩调整的参数高效和鲁棒大型语言模型微调
通过实施共享低秩适应（ShareLoRA）的方式，本研究介绍了一种优化预训练语言模型（PLMs）的参数有效微调（PEFT）的方法。在不同层级上策略性地部署 ShareLoRA，并对 self-attention 层的 Query、Key 和
PDFa month ago
DIEKAE：大规模语言模型高效知识增强与编辑的差异注入
本文介绍了一种将外部知识注入到预训练语言模型中的新方法，通过采用一系列编码器，将外部知识处理和注入到预训练语言模型层，从而显著减少计算成本并提高模型性能。与其他多种方法相比，在知识扩充和编辑的训练和推理过程中，我们的方法更快且更高效。
PDFa month ago
SuperPos-Prompt: 使用多个令牌嵌入的叠加来增强语言模型的软提示调优
在参数高效调整预训练语言模型方面，软提示调整技术最近已经引起了广泛关注，尤其是减少模型参数调整所需的工作。尽管它们的使用越来越多，但是在使用软提示进行最优调整，特别是在较小的数据集上，仍然面临着重大挑战。该研究在这个领域做出了两个贡献：（i
PDF2 months ago
能够免费自动对准吗？
AlignEZ 是一种使用自动生成的偏好数据和表示编辑来几乎零成本对齐预训练语言模型的新方法，通过减少不必要且提升有利的组件，并利用自动生成的偏好对来识别子空间，这一几乎零成本的过程显著缩小了基本预训练模型和调整模型之间的差距（平均缩小 3
PDF2 months ago
探究变形金刚式语言模型中的动词体类别
我们调查了预训练语言模型（PLM）如何编码俄语动词相貌的语法类别。实验表明 BERT 和 RoBERTa 确实在其最后几层对相貌进行编码，并且对添加界定性含义对完美相貌和不完美相貌的影响相反，这与语法一致。我们的研究结果的实际应用是，仅对
PDF2 months ago
ACL探索文本分类中的序数性：显式和隐式技术的比较研究
自然语言处理中的序数分类（OC）是一个广泛遇到的挑战，它在各个领域，如情感分析、评级预测等中都有应用。以往的方法主要集中在修改现有或创建新的损失函数，明确考虑了标签的序数性质。然而，随着预训练语言模型的出现，通过标签的隐含语义来解决序数性变
PDF2 months ago
缓解预训练立场检测中的立场偏见的相对反事实对比学习
我们提出了相对反事实对比学习（Relative Counterfactual Contrastive Learning，RCCL）方法，用于缓解预训练立场偏差，并保留上下文立场关系。实验证明，该方法优于立场检测和去偏差基线模型。
PDF2 months ago
KDD化学 LLM 是否能从信息传递中受益
预训练语言模型和信息传递神经网络在处理分子文本和分子科学领域展示了显著的能力。本文提出了两种策略来评估信息整合是否能增强性能：对比学习和融合，经实证分析表明，当应用于较小的分子图时，整合方法相比基准模型表现出优越性能，而当应用于大规模图时，
PDF2 months ago