iSEA: NLP 模型语义错误分析的交互式流水线

Mar, 2022

iSEA: NLP 模型语义错误分析的交互式流水线

iSEA: An Interactive Pipeline for Semantic Error Analysis of NLP Models

Jun Yuan, Jesse Vig, Nazneen Rajani

TL;DR我们提出了 iSEA，一种交互式语义错误分析工具，它自动发现高错误率的语义基础子人群，并支持自定义子群。通过使用案例和专家访谈，我们演示了 iSEA 如何协助误差理解和分析。

Abstract

error analysis in nlp models is essential to successful model development and deployment. One common approach for diagnosing errors is to identify →

error analysis nlp models subpopulations isea semantic error analysis

发现论文，激发创造

SEAL : 交互式系统误差分析和标记工具

这篇论文介绍了一种交互式的 Systematic Error Analysis and Labeling (SEAL) 工具，使用两步法逐步确定高误差片段数据，同时使用语言模型和文本到图像模型来为性能低下的数据集提供人类可理解的语义，从而解决 NLP 领域中因标签缺失和缺乏可视化特征而面临的挑战。

Oct, 2022

基于语言封装和语义融合的在线内容广义索赔检测

LESA framework proposes a generalized model for argument mining using syntactic and contextual features to segregate claims, resolving the issue of unavailability of labeled unstructured text by annotating a Twitter dataset and improving state-of-the-art performances on benchmark claim datasets.

Jan, 2021

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

基于维基百科的语义解释技术在自然语言处理中的应用

本文提出一种名为 Explicit Semantic Analysis（ESA）的新方法，基于 Wikipedia 的概念表示未受限制的自然语言文本的含义，用于文本分类和计算自然语言文本片段之间的语义相关性，此方法利用自然概念使 ESA 模型易于向人类用户解释，并在这两个任务中取得了显著的改进。

Jan, 2014

大型语言模型的语义成员推断攻击

通过利用输入和其扰动的语义内容，我们引入了一种新的方法 —— 语义成员推断攻击（SMIA），从而提高成员推断攻击（MIAs）的性能。我们使用维基百科数据集对 Pythia 和 GPT-Neo 模型家族进行了全面评估，结果表明 SMIA 在 AUC-ROC 方面显著优于现有的 MIAs，例如，与第二好的攻击相比，SMIA 在 Pythia-12B 上实现了 67.39% 的 AUC-ROC，而第二好的攻击仅为 58.90%。

Jun, 2024

通过交互式视觉分析消除机器盲区的系统误差

该研究提出了一种视觉分析系统（ESCAPE），通过人类参与者的观测和量化，以及减轻偏见的解决方案（debias 方法），在避免人工智能盲点（AI blindspots）和系统性错误方面具有较高的实用性。

Mar, 2023

通过迭代学习模式链接图来提升语义文本到 SQL 解析能力

本文提出一种名为 ISESL-SQL 的框架，通过具有迭代性的语义增强架构图方法，构建了问题单词和数据库模式之间的联系，提高文本到 SQL 系统的泛化能力。实验结果表明，ISESL-SQL 优于其他基准模型，并展示了其在多种数据库上的鲁棒性和泛化能力。

Aug, 2022

利用基于语义相似度的图结构进行高效数据选择的模型训练

该研究论文介绍了一种有效的数据抽样机制，通过基于文本信息而不经过计算密集型模型或其他密集预处理转换，将新数据点分类为语音识别难度桶。结果表明，使用该方法比随机预测提高了 93% 的 ASR 性能精确度，并对文本表示在语音模型中的影响提供了重要信息。此外，一系列的实验证明了使用 ASR 信息对模型进行细调的益处和挑战。与随机抽样相比，报告了 7% 的验证损失下降，针对高难度数据集的非局部聚合的 WER 降低了 7%，并且在数据集之间具有高语义相似性的局部聚合下，WER 降低了 1.8%。

Feb, 2024

通过自然语言交互纠正语义解析错误

该研究通过 NL-EDIT 模型演示自然语言反馈的交互过程中，对语义解析的一次修正可以将现有文本到 SQL 解析器的准确性提高 20％，并分析该模型的局限性并讨论改进和评估方向。

Mar, 2021

使用推断自动机搜索证明的 SEPIA

SEPIA 为 Coq 提供了自动化证明的新工具，它将模型推断与交互式定理证明相结合，使用状态模型从策略序列中推断证明，经评估发现 SEPIA 在三个 Coq 数据集上的表现可作为现有自动化策略的有用补充。

May, 2015