DetoxBench：大型语言模型多任务欺诈与滥用检测基准

Sep, 2024

DetoxBench：大型语言模型多任务欺诈与滥用检测基准

DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection

Joymallya Chakraborty, Wei Xia, Anirban Majumder, Dan Ma, Walid Chaabene...

TL;DR本研究关注大型语言模型在欺诈与滥用检测领域的应用不足，提出了一套全面的基准评估工具，以评估其在多种现实场景下的表现。研究发现，尽管大型语言模型在个别欺诈和滥用检测任务中表现良好，但在需要细致的语用推理的任务上表现不佳，这为其在高风险应用中的负责任发展提供了重要启示。

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language processing tasks. However, their practical application in high-stake domains, such as fraud and Abuse Detection, remains

发现论文，激发创造

针对在线性侵犯聊天和辱骂性文本的细调Llama 2大型语言模型

通过使用开源预训练的Llama 2 7B-parameter模型，这篇论文提出了一种检测在线性侵以及滥用语言的方法，其基于大型语言模型的能力，表现出良好的性能并适用于真实世界应用和其他潜在的文本分类问题。

Aug, 2023

探索LLMs用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能(约20-30%)，而且将理由/解释加入流程会在不同数据集上相较基线进一步提升性能(约10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

LLMs和Fine-tuning：针对仇恨言论检测的跨领域性能基准测试

比较不同的预训练和微调的大型语言模型对仇恨言论检测的影响，并强调了LLMs在不同领域的有效性和过拟合风险，通过评估，我们强调了需要通过更多样化的标签来掌握仇恨言论细微之处的微调模型的需求。最后，我们总结了对未来仇恨言论检测的展望，强调了跨领域的普适性和适当的基准实践。

Oct, 2023

大型语言模型应用于实际世界仇恨言论检测的调查

使用大型语言模型和四种不同的提示策略，发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能，提示策略在高效利用大型语言模型的知识库方面起到关键作用。

Jan, 2024

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

RTP-LX: 多语言情境下，LLM 能否评估毒性？

通过在28种语言中引入人工转写和人工注释的有毒提示和输出数据集RTP-LX，我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力，并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难，特别是对于微小攻击和偏见这样微妙但有害的内容。我们发布这个数据集以进一步减少这些模型的有害使用并改善它们的安全部署。

Apr, 2024

BeHonest：大型语言模型诚实度基准测试

这篇论文介绍了一个名为 BeHonest 的新基准，旨在全面评估大型语言模型（LLMs）的诚实性，并强调了LLMs诚实性对现实世界的影响和迫切需要可靠方法和基准来确保和评估LLMs的诚实性。

Jun, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024

大型语言模型中的有毒提示高效检测

本研究针对大型语言模型（如ChatGPT和Gemini）中有毒提示的检测问题，提出了一种轻量级的灰盒方法ToxicDetector。该方法利用模型生成有毒概念提示，结合特征向量和多层感知机分类器进行检测，测试结果表明其准确率达到96.39%，且处理时间短，适合实时应用，显著优于现有技术。

Aug, 2024

利用基于大语言模型的检测对抗电话诈骗：我们处于何种水平？

本研究解决了电话诈骗对个人和社区的严重威胁，特别是在诈骗者不断适应和改进策略的背景下。通过分析诈骗者与受害者之间的对话动态，本研究提出了基于大语言模型的检测方法，能实时识别潜在的诈骗电话，为用户提供即时保护。这种方法展示了良好的前景，但也面临数据偏见、召回率低以及幻觉等挑战，需要进一步研究解决。

Sep, 2024