llms performance | BriefGPT

关键词llms performance

搜索结果 - 6

AutoDetect: 面向大型语言模型的自动弱点检测统一框架
通过 AutoDetect 框架对大型语言模型进行自动检测，能够发现模型的弱点并指导改进，提高 LLMs 的性能。
PDF12 days ago
DefAn: LLMs 幻觉评估的确定性答案数据集
这篇论文介绍了一份包含超过 75,000 个提示的详尽基准数据集，用于评估大型语言模型（LLMs）的性能，揭示了虚构产生率、提示错位产生率和一致性等方面的实验结果，并证明了数据集的有效性和作为 LLMs 性能评估综合基准的重要性。
PDF23 days ago
使用大型语言模型的多条件排名
利用大型语言模型（LLMs）对一组项进行排名已成为推荐和检索系统中的常见方法。本文通过引入适用于评估各种项目类型和条件的多条件排名的基准 MCRank，对 LLMs 进行了分析，表明随着项目和条件数量以及复杂性的增长，性能显著下降。为克服这
PDF3 months ago
MT-Bench-101：用于多轮对话评估大型语言模型的细粒度基准测试
通过对真实的多轮对话数据的详细分析，在多轮对话方面构建了一个包含 1388 个多轮对话中 4208 个轮次的三层次能力分类系统，并评估了 21 个流行的大型语言模型在多任务评估基准 MT-Bench-101 上的能力以及对话中的性能差异。进
PDF4 months ago
针对专门的情感识别任务定制通用的大型语言模型
通过使用大型语言模型，在情感识别领域中研究了 LLMs 的性能，发现其在语言情感识别任务中具有强大的迁移性和可行性。
PDF8 months ago
谨言慎行：大型语言模型与内容管理
大型语言模型在内容审核中表现出的强大能力备受关注，本研究通过评估一系列商用的现代语言模型（GPT-3，GPT-3.5，GPT-4），在基于规则的社区审核和毒性内容检测两个常见任务中发现，这些模型在许多社区的审核上表现出很高的准确性和精确度，
PDF9 months ago