AraTrust: 评估阿拉伯语 LLM 的可信度

Mar, 2024

AraTrust: 评估阿拉伯语 LLM 的可信度

AraTrust: An Evaluation of Trustworthiness for LLMs in Arabic

Emad A. Alghamdi, Reem I. Masoud, Deema Alnuhait, Afnan Y. Alomairi, Ahmed Ashraf...

TL;DR提出了第一个全面的阿拉伯语语言模型信任度基准 ——AraTrust，其中包含了多个方面的真实性、伦理、安全性、身体健康、心理健康、不公正、非法活动、隐私和冒犯性语言的 516 道人工多项选择题。通过引入 AraTrust，旨在促进共同努力，为阿拉伯用户创造更安全、更值得信赖的语言模型，其中 GPT-4 在阿拉伯语方面表现出最高的可信度。

Abstract

The swift progress and widespread acceptance of artificial intelligence (AI) systems highlight a pressing requirement to comprehend both the capabilities and potential risks associated with AI. Given the linguistic complexity, cultural richness, and underrepresented status of

artificial intelligence arabic large language models trustworthiness benchmark gpt-4

发现论文，激发创造

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

值得信赖的 LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对 LLM 值得信赖性进行评估时需要考虑的关键维度，包括对 LLM 的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的 LLM 进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在 LLM 对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的 LLM 部署至关重要。

Aug, 2023

TrustGPT：大型语言模型的信任度和责任性基准

本研究旨在通过引入 TrustGPT，评价 LLMs 在毒性、偏见和价值对齐三个关键领域，以促进更具伦理和社会责任感的语言模型的发展。

Jun, 2023

真相告诉我：一个用于测量大型语言模型可信度的系统

基于预定义的领域知识图谱，本文提出了一种系统的方法来衡量大型语言模型的可信度，其过程中人类参与验证和优化系统，该方法对于在卫生保健、国防、金融等关键环境中运营的实体以及所有大型语言模型用户十分重要。

Mar, 2024

分析多语言 LLM 在多轮指令跟踪中的能力：阿拉伯语的案例研究

在小众语言如阿拉伯语中，我们详细研究了开放式大型语言模型在回应多轮指令方面的能力，并利用自定义的阿拉伯文翻译的 MT-Bench 基准套件和 GPT-4 作为评估工具，对英文和阿拉伯文进行了综合评估和比较，结果表明在不同任务类别（逻辑和文学）以英文或阿拉伯文指令时，模型的回答会有所差异。我们发现，使用多语言和多轮次数据集进行微调的基础模型与从头开始使用多语言数据训练的模型具有竞争力。最后，我们假设一组小型、开放式大型语言模型在基准测试中具有与专有模型相当的性能。

Oct, 2023

InSaAF：通过准确性和公平性加强安全性 | LLM 是否准备好进入印度法律领域？

近年来，语言技术和人工智能的最新进展在法律领域提出了众多语言模型，从预测判决到生成摘要等多种任务。本研究探讨了大规模语言模型（LLMs）在印度社会因素参与的法律任务中的能力。我们提出了一种新的度量标准，即加权法律安全评分（$LSS_{eta}$），综合了 LLM 的公平性和准确性。我们通过考虑 LLM 在二元法定推理任务中的性能以及在印度社会的各个不平等因素上的公平展现来评估 LLMs 的安全性。LLaMA 和 LLaMA--2 模型的任务性能和公平性得分表明，所提出的 $LSS_{eta}$ 度量标准可以有效决定模型在法律领域中的安全使用准备性。我们还提出了利用专门的法律数据集进行微调流程的方法，以减轻偏见并提高模型的安全性。对 LLaMA 和 LLaMA--2 模型的微调流程提高了 $LSS_{eta}$，提高了它们在印度法律领域中的可用性。我们的代码已公开发布。

Feb, 2024

TrustScore: 无需参考的 LLM 响应可信度评估

本研究提出了基于行为一致性概念的 TrustScore 框架，用于评估大型语言模型（LLMs）的响应与其内在知识的一致性，同时能够与事实核实方法无缝集成，实现与人类判断强相关性的结果。

Feb, 2024

基于大型语言模型的阿拉伯法律裁决预测

在阿拉伯法律分析领域中，我们的研究通过使用现有最先进的大型语言模型，全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能，并采用不同的评估指标，我们发现基于 GPT-3.5 的模型在所有模型中表现最佳，超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时，我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础，弥合计算语言学与阿拉伯法律分析之间的差距。

Oct, 2023

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024