llm capabilities | BriefGPT

关键词llm capabilities

搜索结果 - 11

方言？我几乎不了解她：风格控制与刻板印象的挑战
大型语言模型（LLMs）在教育和学习应用中的使用不断增加。研究表明，在控制风格以适应学习者需求的情况下，能够增加理解力，促进包容性，并有助于知识蒸馏。为了了解当代 LLMs 在风格控制方面的能力和局限性，我们评估了五个最先进的模型：GP
PDF18 days ago
IPEval: 一种用于大规模语言模型的双语知识产权代理咨询评估基准
鉴于在知识产权领域中大型语言模型（LLMs）的快速发展，缺乏一种特定的评估基准来评估其理解、应用和推理能力，我们引入了 IPEval，这是第一个为知识产权机构和咨询任务量身定制的评估基准。IPEval 包括 2657 个多项选择题，涵盖了知
PDF18 days ago
ACLHelloFresh: 在 X 社群笔记和维基百科编辑流中对真实世界人类编辑行为的 LLM 评估
设计 LLM 基准测试是具有挑战性的，HelloFresh 是一种基于实时数据生成的基准测试方法，可以解决测试数据污染和过拟合问题，并通过不断地生成新的评估数据来实现持续评估。
PDFa month ago
可用性解释人工智能：在 LLM 时代利用解释能力的 10 种策略
该文介绍了可解释人工智能（XAI）在大型语言模型（LLMs）领域的应用，探讨了 XAI 对 LLMs 的影响及 LLMs 对 XAI 的贡献，并提出了十种策略以及相关挑战和案例分析。
PDF4 months ago
SciAssess：科学文献分析 LLM 熟练度评估
最近大规模语言模型（LLMs）的突破性进展在自然语言理解和生成方面带来了革命性的变化，引发了对将这些技术应用于科学文献分析这一细分领域的兴趣激增。然而，现有的基准不足以充分评估 LLM 在科学领域，尤其是在涉及复杂理解和多模态数据的情景中的
PDF4 months ago
LLMs 模拟五大人格特质：进一步证据
对 Llama2、GPT4 和 Mixtral 等大型语言模型对五大人格特质进行仿真的实证研究，分析了这些模型所模拟的人格特质及其稳定性，这有助于更深入地了解 LLMs 模拟人格特质的能力以及对个性化人机交互的影响。
PDF5 months ago
当下现状？对多指令语言模型评估的呼吁
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如 LLM 开发人员与对特定下游任务感兴趣的开发人员
PDF6 months ago
从一本语法书学习翻译新语言的基准
利用少量的领域语言学参考材料，我们介绍了一种新的任务框架 - 从一本书进行机器翻译，该框架要求模型从一本人类可读的语法解释书中学习一种语言，而不是从大规模的挖掘数据集中获取域内数据，为低资源语言提供了新的机器翻译测评，并展示了当前大型语言模
PDF9 months ago
LMSYS-Chat-1M：一种大规模真实 LLM 对话数据集
研究了人们在现实世界中如何与大型语言模型进行互动的重要性，介绍了包含 25 个尖端的大规模语料库，共有 100 万条来自 210K 个独立 IP 地址的真实对话的 LMSYS-Chat-1M 数据集的内容、统计数据和主题分布，通过四个应用案
PDF10 months ago
Struc-Bench：大型语言模型在生成复杂结构化数据方面真的很强吗？
评估了当前的大型语言模型在生成复杂结构化数据方面的能力，提出了一种结构感知微调方法来改善这种能力，并基于评估结果构建了模型能力图谱，揭示了大型语言模型在处理复杂结构化输出方面的弱点和未来工作的方向。
PDF10 months ago
利用大型语言模型进行自动对话分析
这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力，并与专门的模型进行对比。研究发现，专门的模型和 ChatGPT 都没有达到令人满意的结果，低于人类表现，但 ChatGPT 显示出了潜在的潜力，
PDF10 months ago