- 通过自我增强和对比学习提高社交媒体文本中的疾病检测
该研究提出了一种新的方法,将对比学习与语言模型相结合,通过自我增强方法改进模型的表示,并在与各种疾病相关的社交媒体数据集上取得了显著的改进。
- 基于文本质量的修剪方法用于语言模型的高效训练
本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法,以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准,本文建立了一个框架来识别和消除低质量的文本实例,提高了 LM 模型的训练效率。实验结果表明,通过这 - 社交智能数据基础设施:构建现在和引领未来
针对自然语言处理(NLP)系统越来越多地融入人类社会生活的现状,本研究构建了一个综合的社交 AI 数据基础设施,包括全面的社交 AI 分类法和 480 个 NLP 数据集的数据库,以便分析现有的数据集工作,并评估语言模型在不同社交智能方面的 - 面向基于提示的 NLP 模型的模板可转移背门攻击
利用 GPT4 生成模板进行数据无关的迁移攻击,实现对基于提示的自然语言处理模型的优越攻击性能和隐蔽性。
- IJCAI概率向量排序与无监督性能评估
通常用于评估模型性能的无标签数据评估的方法,通过使用得分函数映射概率向量来提高效果,但是需要选用最佳得分函数,实验得出 L^∞范数是最合适的。
- ACL弱监督学习的批判性观察:远不及你所想的强
本文研究弱监督学习中复杂的训练方法,发现成功的关键在于干净的验证数据,即使只用五个样本的干净数据,已有方法的优势也会被削弱,因此提出了进一步研究方向建议。
- 注释填充以个性化预测:关于分布动态和模型预测的初步研究
为了克服通过众包进行数据注释所需的时间和成本,我们提出使用填充方法来还原所有标注者对所有示例的观点,从而创建一个不排除任何注释者观点的数据集。
- Dynosaur: 一种动态生长范式用于指令调整数据策划
本文提出了 Dynosaur,一种基于现有 NLP 数据集元数据的动态增长范式,用于构建 LLM 的指令调整数据,同时研究将连续学习作为指令调整的一种新方法,并演示了在任务表示选择方面进行任务重演的有效性。
- 心理学启发的因果提示
该研究提出了三种不同的因果提示,研究了情感分类数据的不同性质在模型响应中引发的协议的一致性或多样性,并建议未来的研究提高对 NLP 任务中不同因果结构的认识。
- SemEval-2023 任务 11:学习中的不一致性(LeWiDi)
本文报告第二届 LeWiDi 共享任务,其集中于争议性任务。为了训练和评估 NLP 模型,提出了一种保留所有注释者判断的新的语料库创建方法,并介绍了敦促 NLP 研究人员采用这种方法的 LeWiDi 系列。
- Bipol: 一种新型的 NLP 多轴偏见评估指标和可解释性
引入了 bipol,这是一种具有可解释性的新度量,用于评估文本数据中的社会偏见。通过评估两个受敏感术语频率和模型分类影响的过程,我们使用 SotA 架构创建了新模型来检测多个方面的偏见,并评估了两个流行的 NLP 数据集 (COPA 和 S - ICLR多任务提示调整实现参数效率转移学习
我们提出了多任务提示调整(MPT)方法,该方法通过从多个特定于任务的源提示中提取知识来首先学习一个单一可传输的提示,然后学习该共享提示的乘性低秩更新,以高效地将其适应每个下游目标任务。在 23 个自然语言处理数据集上进行的广泛实验表明,我们 - 自适应上下文学习
本文提出了一种基于自适应机制的 in-context learning (ICL) 原则,通过选择和调整上下文示例来实现正确预测,从而最大化性能,并在八个不同 NLP 数据集上进行了全面评估,相对于常见实践设置,我们的 ICL 方法实现了 - EMNLP使用语法归纳寻找数据集快捷方式
本文提出使用概率语法学习发掘 NLP 数据集中的 shortcut,同时也展示这些 features 能够帮助分类器提高最坏组的准确性。
- ACL具有差分隐私文本编码器的公平自然语言处理模型
本文提出 FEDERATE 方法,将差分隐私和对抗训练的思想结合起来,学习私有的文本表示,同时也促进了更公平的模型;在四个 NLP 数据集上的实证结果表明 FEDERATE 方法一致性地优于以前的方法。
- 人工智能发展的基准数据集未能满足医疗专业人员的需求
通过深入文献和在线资源的系统性研究,我们编制并发布了一个全面的与临床和生物医学自然语言处理(NLP)广泛领域相关的数据集和基准目录,对 450 个 NLP 数据集进行了手动系统化和注释处理,并与跨医疗应用的相关任务进行了比较,结果显示,当前 - EMNLPWANLI: 工人与人工智能合作创建自然语言推理数据集
通过使用自然语言生成技术和人工智能协作来创造数据集,以及使用 WANLI 数据集训练模型取得了较高精度,具有以下关键词:众包、NLP 数据集、数据集创作、人工智能、自然语言推理
- ACL数据集地理:将语言数据映射到语言使用者
研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响,使用实体识别和链接系统,观察了它们的跨语言一致性,并探讨了解释观察到的数据集分布的地理和经济因素。
- ACLMetaICL:在上下文中学习学习
MetaICL 是一种新的元训练框架,用于少样本学习,通过在大量训练任务上进行元训练,调整预训练模型进行上下文学习,从而在测试时仅通过少量训练例子进行条件化得到更好的学习效果,该框架在包括分类、问答、自然语言推理、释义检测等在内的 142 - EMNLP基于动态数据过滤的训练可能不适用于自然语言处理数据集
探讨了使用 Area Under the Margin(AUM)度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本,表明该方法可以滤除 NLP 数据集中的错误标记,但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠