evaluation tasks | BriefGPT

关键词evaluation tasks

搜索结果 - 12

MLVU: 多任务长视频理解的全面基准
为了解决现有视频理解基准测试中存在的问题，本文提出了一个新的基准测试 MLVU（多任务长视频理解基准测试），包括视频长度的灵活扩展、各种视频类型的包含以及多样化的评估任务，通过对最新 MLLMs 的实证研究，揭示了今天的技术在长视频理解方面
PDFa month ago
ACL评估大型语言模型的数学推理能力：重点关注错误识别和纠正
我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的
PDFa month ago
评估和模拟社会智能：人类与人工智能能力的比较研究
该研究提出了一个用于评估社交智能的基准，引入了逆向推理和逆向规划这两个评估任务，通过基于递归贝叶斯推理的计算模型对人类行为模式进行解释，实验证明了人类在整体表现、零样本学习、一次推广和多模态适应性方面超越了最新的 GPT 模型，并显示出 L
PDFa month ago
扩展 Llama-3 上下文十倍于一夜之间
通过 QLoRA 的微调，我们将 LLama-3-8B-Instruct 的上下文长度从 8K 扩展到 80K。整个训练周期非常高效，在一台 8xA800（80G）GPU 机器上仅需 8 小时。生成的模型在广泛的评估任务中表现出优越性能，如
PDF2 months ago
评估中的生成 AI 悖论：它能解决的问题，可能无法评估
本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务，通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估，结果显示存在显着差异，大型语言模型在评估任务中表现较差。有趣的是
PDF5 months ago
ACL能否使用 NLP 模型 ' 识别 '，' 区分 ' 和' 证明 ' 没有明确答案的问题？
尽管最先进的自然语言处理（NLP）系统在各种语言理解任务上取得了显著的表现，但它们主要关注那些有正确和明确答案的问题。然而，在现实世界的应用中，用户经常会问一些没有明确答案的问题。最新研究表明，即使是 SOTA 模型（包括 GPT-3 和
PDF10 months ago
长颈鹿：在 LLM 中扩展上下文长度的探险
现代大型语言模型（LLMs）通常使用固定的上下文长度进行训练，但这限制了它们在评估时能处理的输入序列的长度。为了在训练时间上下文长度之外的较长序列上使用这些模型，可以采用不断增长的上下文长度外推方法。本文对现有的上下文长度外推方法进行了广泛
PDF10 months ago
对大型语言模型评估的调查
大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
PDFa year ago
CompanyKG：用于公司相似度计算的大规模异构图
本研究提出并发表了一种名为 CompanyKG 的知识图谱，用于代表和学习各种公司特征和关系，以便对公司相似性进行细粒度的量化，为此我们设计并编制了三个评估任务，包括相似性预测、竞争者检索和相似性排名，并提供了可复制的预测方法来进行广泛的基
PDFa year ago
利用自然监督进行语言表示学习和生成
本论文研究了三个方面的工作：如何提高预训练模型在 NLP 任务中的性能，在维基百科和释义上利用语言结构以提取知识，以及定制文本资源以建立挑战性的评估任务。
PDF2 years ago
ACL训练模型对视觉常识知识的学习
研究利用多模态模型来学习语言的局限性，提出了两个评估任务来衡量语言模型在视觉常识知识方面的表现。结果发现，基于视觉文本数据的多模态模型和单模态模型在视觉常识知识方面表现不显著不同。
PDF2 years ago
知识表示学习：量化评述
本文综述了知识表示学习的动机和现有方法，并在知识获取的三个评估任务上对几种典型的 KRL 方法进行了广泛的定量比较和分析。此外，我们还回顾了 KRL 的实际应用，包括语言建模、问答、信息检索和推荐系统，并讨论了剩余的挑战和未来的方向。
PDF6 years ago