evaluating | BriefGPT - AI 论文速递

关键词evaluating

搜索结果 - 17

大型语言模型作为推荐解释的评估器
使用 LLMs 作为评估者能够提供准确、可重复和经济高效的解决方案，用于评估推荐解释文本的质量。
PDFa month ago
生成学生：利用 LLM 模拟的学生档案支持问题项目评估
通过利用 LLMs 模拟学生档案并生成多项选择题的回答，本文提出了一种基于 KLI 框架设计的生成学生提示结构，该结构可用于评估问题实例的质量，并发现生成学生的回答与真实学生的回答具有高度相关性。
PDFa month ago
NL2FOL：将自然语言翻译为一阶逻辑，用于检测逻辑谬误
通过将自然语言逐步翻译成一阶逻辑，利用满足性模块理论求解器来可靠地检测逻辑谬误，并将输入分类为谬误或有效陈述，这种方法不需要训练数据或微调，并且在数据集上表现良好。
PDF2 months ago
比较聚类方法使用相对有效性指数的研究
这项研究通过对超过 270 万个聚类分区进行实验，发现 RVIs 在非传统任务上并不适用，对此类应用得出的结论可能是误导性的，因此建议使用外部验证和相关领域知识来选择正规化程序、表示方法和距离度量。
PDF3 months ago
Chatbot Arena: 通过人类偏好评估 LLM 的开放平台
Chatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台，通过对接受众来源的成对比较和众包输入的方式收集数据，并使用经过验证的统计方法进行评估和排名，以确保其可靠性和可信度，成为最有价值和最引用的大型语言模型排行榜之一。
PDF4 months ago
COLINGQsnail：顺序问题生成的问卷数据集
设计和评估问卷调查需要大量的努力，但由于高质量数据集的稀缺性，自动生成问卷仍然是一个具有挑战性且需要进一步探索的领域。
PDF4 months ago
2024 年大型语言模型的事实性
大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因
PDF5 months ago
大型语言模型中的事实性调查：知识、检索与领域特定性
该研究总结了大型语言模型中的事实性问题，讨论了其不准确性对不同领域应用的潜在影响和挑战，分析了导致事实性错误的主要原因，介绍了评估模型事实性的方法和策略，提供了研究人员指南以增强大型语言模型的事实可靠性。
PDF9 months ago
严格评估神经元的自然语言解释
自然语言是解释大型语言模型如何处理和存储信息的一种吸引人的媒介，然而评估这种解释的忠实度是具有挑战性的。我们开发了两种模式的自然语言解释评估方法，以评估声称单个神经元在文本输入中表示概念的解释的真实性。我们将此框架应用于 Bills 等人
PDF9 months ago
结合自动编码和教师输入以生成异步在线讨论的 ENA 可视化
通过潜在狄利克雷分析（LDA）和教师的关键词，本文提出了一种从相对较小的数据集中自动提取代码的方法，使用生成的代码构建知识网络分析（ENA）模型，并与人工编码者构建的先前 ENA 模型进行比较，结果表明两种模型之间没有统计差异，讨论了 EN
PDF10 months ago
使用一致性检查评估超人模型
本文提出了通过一致性检查来评估超人工智能模型的框架，并在国际象棋位置评估、未来事件预测和法律判决等三个任务上展示了逻辑不一致性的例子。
PDFa year ago
大型语言模型在算术任务中的表现如何？
本研究提出一个数学计算数据集 MATH 401，用于测试最新的大型语言模型（包括 GPT-4，ChatGPT 等）在解决数学单词问题时的算术能力，并提供了能力的详细分析。
PDFa year ago
传统和深度学习模型对纵向医疗记录的可解释性
该研究评估了传统（XGBoost）和深度学习（LSTM with Attention）模型在全局和个别预测水平上的可解释性表现，并比较了三种流行的解释性方法：SHapley Additive exPlanations（SHAP）、Layer
PDF2 years ago
面向情感感知的对话代理
本文提出了一种以情感为中心的端到端会话代理，基于两种模型，回复情感预测模型和文本生成模型，并且利用情感分类模型来评估代理的表达情感。通过指导预定义一组句子的文本生成模型，有效提升了生成文本的质量和表达情感的准确度，通过人工及自动化评估显示了
PDF2 years ago
ACL将人类和统计评估统一为一体：自然语言生成
本文提出了一个统一的框架来评估 “人或机器生成” 的句子的错误率，并结合人类和统计学的评估来评估自然语言生成系统的多样性和质量，带来了更准确和全面的结果。
PDF5 years ago
用于讽刺的大型自注释语料库
该论文介绍了自注释 Reddit 语料库（SARC），该语料库为讽刺研究以及训练和评估讽刺检测系统提供了大量的数据。每个陈述还被作者自行注释，并配有用户、主题和对话上下文。通过构建基准测试和评估基线方法，我们对该语料库进行了准确度评估。
PDF7 years ago
KDD顺序特征解释用于异常检测
研究了针对异常检测系统的序列特征解释（SFEs）计算和评估问题，提出了一个评估框架和新的解释方法，并通过真实数据集和仿真专家进行了大规模的定量评估来提高那些考虑了分析师努力的解释质量。
PDF9 years ago