关键词natural language processing models
搜索结果 - 10
- DOCMASTER:文档问答中的注释、训练和推理的统一平台
该研究论文介绍了针对 PDF 文档的 DOCMASTER 统一平台,用于注释 PDF 文档、模型训练和推断,并支持隐私保护,可用于自然语言处理模型应用于 PDF 文档的训练和相关研究。
- SoK: 降低 Fine-tuned 语言模型对成员推断攻击的脆弱性
自然语言处理模型在最近几年中经历了显著的提升,其上已建立了许多应用。然而,这些应用中许多需要在定制的专有数据集上对通用基础模型进行微调,这些微调数据往往含有个人或敏感信息,增加了隐私风险。本研究首次系统回顾了大型自然语言处理模型在成员推理攻 - 重构税法推演为类比推理
我们将法定推理重新定义为一个类比任务,通过将两个法定推理实例进行组合,增加了数据集的大小并引入了可解释性。我们证明这个任务对于自然语言处理模型来说与原始任务大致相同难度。最后,我们通过检索机制和类比模型的组合解决法定推理,并在之前的可比工作 - 探索方程作为更好的数值推理中间意义表示
使用数学公式作为中间意思表示(IMR)方法,通过减少程序和生成常数表达式的倾向,来提高大型语言模型(LLMs)生成数学公式的准确性,取得了 2.2%、0.9% 和 1.7% 在 GSM8K、SVAMP 和代数数据集上的性能提升。
- LimeAttack: 文本硬标记对抗攻击的本地可解释方法
利用局部可解释方法近似计算词重要性排名,并采用束搜索算法寻找最优解的一种新型硬标签攻击算法 LimeAttack 在相同查询预算下实现更好的攻击性能。此外,我们评估了 LimeAttack 对大语言模型的有效性,并发现对大语言模型威胁仍然显 - 探究 OpenAI GPT3 中的偏见与互联网教育
本研究探讨了自然语言处理模型中偏见及其避免技术的现有文献,包括为何首先解决偏见问题;此外,文中分析了这些技术在比过去更大的新型模型下的表现。为了实现这些目标,本文作者使用目前可由消费者使用的最大 NLP 模型 GPT3 进行了研究。通过使用 - 高维潜空间中可靠的散布度量
本文提出并验证八种数据分布度量方法,相对于现有方法,其中大部分具有改进效果,建议使用一种基于主要成分的度量方法和一种基于熵的度量方法来评估模型的数据分布情况。
- 基于特征提取的仇恨言论识别模型
本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型,包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法,并评估了不同模型 - EMNLP最好的更好吗? 自然语言处理的贝叶斯统计模型比较
使用 k 倍交叉验证的贝叶斯统计模型比较技术,对六种英文词性标注器在两个数据集和三个评估指标下的排名进行估计。
- 跨语言词嵌入模型调查
本文综述了跨语言词向量模型的具体类型,比较它们的数据需求和目标函数,并讨论了如何对跨语言词向量模型进行评估和未来研究的挑战。