CATs 是模糊的 PETs:潜在委婉语术语的语料库和分析
本文通过语言学方法提出了一种针对可能的委婉用语(PET)的概念验证技术,使用分布式相似性从一句话中选择和筛选短语候选项,并使用一组简单的基于情感的度量指标进行排名,提高了该方法用于侦测广泛话题的单个和多个词语的 PET 的效性,同时探究了基于情感的方法在这项任务上的未来潜力。
May, 2022
本研究使用 Transformer 模型在英语委婉语消歧任务中,增加了新的任务:注释委婉语中的模糊性,并在三种不同的语言(如 Yoruba、西班牙语和中文)中建立了委婉语语料库,最终使用多语言 Transformer 模型进行了消歧试验。
May, 2023
本文研究了多种语言中委婉语的计算处理。我们训练了一个多语言变换器模型(XLM-RoBERTa)来消除多语言和跨语言环境下的可能的委婉语词汇。与当前趋势一致,我们展示了跨语言的零射击学习的现象。我们还展示了多语言模型在这一任务上相对于单语言模型有显著优势的案例,表明多语言数据提供了额外的机会来了解委婉语的跨语言计算特性。在后续分析中,我们着重研究了普遍委婉语的 “类别”,如死亡和生理功能等。我们测试了同一领域的跨语言数据是否比不同领域的语言内数据更重要,以进一步了解跨语言转移的性质。
Jan, 2024
该研究报告涉及 2022 EMNLP 会议上第三届比喻语言处理研讨会共享任务 - 委婉语探测,通过针对调查给定文本中是否包含委婉语的研究任务,利用 PETs 与 GloWbE 语料库来收集句子,参与者使用不同的方法进行分析并提供结果、主题和发现。
Nov, 2022
该论文提出了一种利用上下文分析的无监督算法,能够检测出被用作委婉语的词汇,识别其秘密含义,并与现有技术相比获得高达 30% 至 400% 的准确度提升;这一算法在内容审核和政策规范的博弈中为审核员提供了有力的工具。
Mar, 2021
本研究介绍了我们参加 EMNLP 2022 与第三届比喻语言处理研讨会所主办的委婉语探测共享任务的两阶段系统。该系统利用直接督导和视觉督导,同时考虑了直接描述和词汇生成的图像,发现这两种方法都可以显著提高系统性能。最终我们的系统得分为 87.2%,仅比最佳提交差 0.9%。
Nov, 2022
EUREKA 是一种基于集成的方法,用于自动检测委婉语,通过对潜在委婉语术语 (PET) 的模型表示和语义相似句子的表示进行分类, EUREKA 能够在公共排行榜上取得最高得分 0.881 的状态
Oct, 2022
本文通过在四个大规模的英语历时文本语料库上进行数量分析,评估了女性是否比男性更多地使用委婉语,并发现女性并未比男性更多地使用委婉语,这表明在广泛的情景中,女性并不比男性更多使用或形成委婉语。
Jun, 2021
本文扩展了 EMNLP 2022 FigLang Workshop 中提出的委婉语检测任务为 few-shot 和 zero-shot 设置,并使用 RoBERTa 和 GPT-3 在这些设置下对数据集进行了实验。我们的实验表明,语言模型能够较好地分类委婉语词汇,即使是在训练中未见过的新术语,这表明它能够捕捉到与委婉语相关的更高级别的概念。
Oct, 2022