toxic language | BriefGPT - AI 论文速递

关键词toxic language

搜索结果 - 17

拆分、遗忘、合并：通过数据属性提升 LLM 中的更有效遗忘
大型语言模型 (LLMs) 存在社会和伦理风险，如生成有害语言或促进危险知识的恶意使用。本文提出了 “SPlit, UNlearn, MerGE” (SPUNGE) 框架，可与任何去学习方法结合以增强其效果。我们实验证明，SPUNGE 在现
PDF19 days ago
AAAI插入并玩：一种控制文本生成的提示调整方法
利用小型语言模型进行 Prompt 调整，使用提示嵌入对生成文本进行控制，验证其在情感分析、正式度和有害语言领域的有效性。
PDF3 months ago
MiMiC: 在表示空间中最小修改的反事实论证
语言模型中的性别偏见和有毒语言等不良行为可以通过干预技术在表示空间中进行干预以减轻问题，本文提出了一种生成表达丰富的反事实干预方法以消除偏见和有毒语言，并在多类分类中显示了其有效性和优于强基准的性能。
PDF5 months ago
社交媒体中的文本毒性：理解 Facebook 评论中表达的孟加拉毒性语言
通过分析社交媒体上使用的孟加拉语有毒语言的数据集，本研究旨在检测和解决在社交媒体中存在的有毒言论问题。
PDF7 months ago
大型语言模型伦理调优的韩语毒性指令数据集的自动构建
通过建立自动生成的有害指令数据库来改进大型语言模型的训练方式，并提高模型对有害输入的伦理意识和反应，推动自然语言处理应用中更安全、更负责任的交互。
PDF7 months ago
分析直播聊天中的规范违反
本研究着重于检测直播平台上的规范违规行为，通过人类用户的信息上下文建立模型可提高 35％的现场直播规范违规识别作用。
PDFa year ago
AAAI毒性检测评估框架：通过反馈评估毒性检测中的基本事实
本文介绍了一种毒性语言检测框架，通过考虑人为因素通过迭代反馈循环来提高毒性基准数据集的可靠性，以平衡性能和毒性避免之间的权衡。
PDFa year ago
ACL促进中文有害语言的细粒度检测：分层分类法、资源和基准
本文介绍了一种精细检测中文毒性语言的方法，包括构建一个监控毒性框架、建立 ToxiCN 数据集、构建侮辱词汇表等。实验证明了这种方法的有效性，并对结果进行了系统定量和定性分析。
PDFa year ago
临界视角：透视 API 中存在的陷阱的基准
本文讨论如何对互联网内容中的 “有害” 语言进行检测，重点介绍了来自 Jigsaw 的最新分数评估工具 PERSPECTIVE，以及我们提出的新基准 SASS，并探讨了 PERSPECTIVE 在 SASS 上表现不足的问题。本文的研究表明
PDF2 years ago
EMNLP走向程序公正：揭示有毒语言分类器使用情感信息中的偏见
研究了毒性语言分类器的公正性，考虑了与身份术语之外的重要概念的交互作用，表明身份术语将其它输入特征的作用超越，所得知识可指导去偏见技术以确保训练集中重要概念的充分代表。
PDF2 years ago
基于推理时自适应优化的语言生成中的统一去毒化和去偏见处理
通过提出第一种统一框架 UDDIA 来解决自然语言生成中的道德问题，该框架同时解決了去除偏见和毒性语言的问题，并提升了文本生成性能。
PDF2 years ago
在混合对抗非对抗的情况下从数据中学习：找到帮手，忽略骗子
本文研究如何在人工交互对话中进行鲁棒性强的学习，其中将人工对话分为有害（trolls）和有益（helpers）两类并引入了一种评估方法（SafetyMix）以此来测试学习算法的鲁棒性。研究结果表明在该环境中基于用户的方法比基于样例的方法更为
PDF2 years ago
AAAI驾驭内心恶魔：语言模型自我解毒
本文研究了语言模型在训练过程中产生有毒语言并放大的现象，分析研究了提示，解码策略和训练语料对于产生有毒输出的影响，提出一种简单而有效的 “解毒” 方法。和监督基准相比，我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。
PDF2 years ago
EMNLP不予理睬：对话生成模型在攻击性场景中的立场分析
通过对 Reddit 对话情景下的回应训练，研究对话模型响应中的攻击性语言，实验结果表明神经网络对话模型容易学习产生攻击性的回应，使用可控文本生成模型可以减少攻击性回复产生的数量。
PDF3 years ago
ACL通过不变量合理化降低有害语言检测中的偏见
通过使用不变量理性化 (InvRat) 方法，我们可以降低对某些语法模式的误判，从而避免使用带有偏见的训练数据集导致毒性过滤器产生偏见，进而加剧群体边缘化的现象。
PDF3 years ago
ACL自动去偏见检测有害语言面临的挑战
由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方
PDF3 years ago
ACL少则得多：在数据稀缺的情况下提高有毒语言分类
本论文通过系统研究，比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响，结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现，与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影
PDF4 years ago