model representations | BriefGPT

关键词model representations

搜索结果 - 5

通过有向表示优化的提示驱动的 LLM 保护
通过研究使用安全提示的大型语言模型的工作机制，本文发现安全提示可以在模型表示空间中明显区分有害和无害查询，从而提出了一种名为 Directed Representation Optimization (DRO) 的方法，通过优化安全提示，显
PDF5 months ago
在大型语言模型中识别线性关系概念
用于在 Transformer 语言模型的给定隐藏层中找到对应于可解释的人类概念的概念方向的线性关系概念技术（LRC）通过首先将主体和客体之间的关系建模为线性关系嵌入（LRE），并在倒转 LRE 同时使用较早的客体层，从而找到既可以作为分类
PDF8 months ago
ACL通过减少表示混淆实现更好的预训练
本文重新研究了基于转换器的预训练语言模型，并找出了位置编码和模型表示中的两种不同类型的信息混淆，提出了 DDRP 编码和 MTH 预训练目标来改进预训练语言模型，并通过对 GLUE 基准测试的大量实验和消融研究表明了这种改进方法的有效性。
PDF2 years ago
ICLR广而深的神经网络是否学习相同的内容？揭示不同宽度和深度下神经网络表示的变化
本篇研究通过探究深度和宽度对模型隐藏表示的影响，发现一个特征块结构，这个结构是相对于训练集大小而言容量较大（更宽 / 更深）的模型中隐藏表示的一种保留和传播主要成分的方式。该发现对不同模型学习的特征有重要影响，其代表性的块结构对于每个模型来
PDF4 years ago
自动 X 光预测中跨域普适性的局限性研究
该研究采用大规模方法量化 X 射线诊断预测任务在多个不同数据集上广泛适用的程度，并发现预测的不一致性不是由图像转移引起的，而是由标签转移引起的。通过正则化网络来测试概念相似性，观察多个数据集中任务之间的差异。
PDF4 years ago