CATs 是模糊的 PETs：潜在委婉语术语的语料库和分析

May, 2022

CATs 是模糊的 PETs：潜在委婉语术语的语料库和分析

CATs are Fuzzy PETs: A Corpus and Analysis of Potentially Euphemistic Terms

Martha Gavidia, Patrick Lee, Anna Feldman, Jing Peng

TL;DR该研究提出了一个可能委婉用语的术语语料库，并讨论语料库上的多个分析结果。研究发现，委婉用语通常会减少负面和冒犯的情感，人类在将这些术语标记为委婉用语与否时存在一定的分歧。

Abstract

euphemisms have not received much attention in natural language processing, despite being an important element of polite and figurative language.

euphemisms natural language processing corpus sentiment analysis annotation task

发现论文，激发创造

使用分布式和基于情感的方法搜索 PET：寻找可能委婉用语

本文通过语言学方法提出了一种针对可能的委婉用语（PET）的概念验证技术，使用分布式相似性从一句话中选择和筛选短语候选项，并使用一组简单的基于情感的度量指标进行排名，提高了该方法用于侦测广泛话题的单个和多个词语的 PET 的效性，同时探究了基于情感的方法在这项任务上的未来潜力。

May, 2022

FEED PETs: 潜在委婉术语消歧的深入实验和扩展

本研究使用 Transformer 模型在英语委婉语消歧任务中，增加了新的任务：注释委婉语中的模糊性，并在三种不同的语言（如 Yoruba、西班牙语和中文）中建立了委婉语语料库，最终使用多语言 Transformer 模型进行了消歧试验。

May, 2023

MEDs for PETs: 多语言委婉词消歧示（对有可能含委婉意味的词语）

本文研究了多种语言中委婉语的计算处理。我们训练了一个多语言变换器模型（XLM-RoBERTa）来消除多语言和跨语言环境下的可能的委婉语词汇。与当前趋势一致，我们展示了跨语言的零射击学习的现象。我们还展示了多语言模型在这一任务上相对于单语言模型有显著优势的案例，表明多语言数据提供了额外的机会来了解委婉语的跨语言计算特性。在后续分析中，我们着重研究了普遍委婉语的 “类别”，如死亡和生理功能等。我们测试了同一领域的跨语言数据是否比不同领域的语言内数据更重要，以进一步了解跨语言转移的性质。

Jan, 2024

委婉语检测任务报告

该研究报告涉及 2022 EMNLP 会议上第三届比喻语言处理研讨会共享任务 - 委婉语探测，通过针对调查给定文本中是否包含委婉语的研究任务，利用 PETs 与 GloWbE 语料库来收集句子，参与者使用不同的方法进行分析并提供结果、主题和发现。

Nov, 2022

自监督委婉用语检测与识别用于内容管理

该论文提出了一种利用上下文分析的无监督算法，能够检测出被用作委婉语的词汇，识别其秘密含义，并与现有技术相比获得高达 30% 至 400% 的准确度提升；这一算法在内容审核和政策规范的博弈中为审核员提供了有力的工具。

Mar, 2021

通过文字描述和视觉意象检测委婉语

本研究介绍了我们参加 EMNLP 2022 与第三届比喻语言处理研讨会所主办的委婉语探测共享任务的两阶段系统。该系统利用直接督导和视觉督导，同时考虑了直接描述和词汇生成的图像，发现这两种方法都可以显著提高系统性能。最终我们的系统得分为 87.2%，仅比最佳提交差 0.9%。

Nov, 2022

PET：自然语言文本中的过程提取注释数据集

研究通过 PET 数据集为商业流程描述提供了一个已注释的语料库，可以帮助比较流程提取方法的结果。

Mar, 2022

EUREKA: 基于 KNN 方法和扩充的欧盟委婉语识别

EUREKA 是一种基于集成的方法，用于自动检测委婉语，通过对潜在委婉语术语 (PET) 的模型表示和语义相似句子的表示进行分类， EUREKA 能够在公共排行榜上取得最高得分 0.881 的状态

Oct, 2022

委婉语中性别不对称的历时评估

本文通过在四个大规模的英语历时文本语料库上进行数量分析，评估了女性是否比男性更多地使用委婉语，并发现女性并未比男性更多地使用委婉语，这表明在广泛的情景中，女性并不比男性更多使用或形成委婉语。

Jun, 2021

探究少样本学习和零样本学习中的委婉语检测

本文扩展了 EMNLP 2022 FigLang Workshop 中提出的委婉语检测任务为 few-shot 和 zero-shot 设置，并使用 RoBERTa 和 GPT-3 在这些设置下对数据集进行了实验。我们的实验表明，语言模型能够较好地分类委婉语词汇，即使是在训练中未见过的新术语，这表明它能够捕捉到与委婉语相关的更高级别的概念。

Oct, 2022