体育智能：通过问题回答从文本到视频评估语言模型对体育理解能力

Jun, 2024

体育智能：通过问题回答从文本到视频评估语言模型对体育理解能力

Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video

PDF

Zhengbang Yang, Haotian Xia, Jingxi Li, Zezhi Chen, Zhuangdi Zhu...

TL;DR通过对主流大型语言模型在各种体育任务上进行广泛评估，我们揭示了自然语言处理中体育理解的关键挑战，并提出了一个基于现有体育数据集的全面概述的新基准，以帮助确定未来的研究优先事项。

Abstract

Understanding sports is crucial for the advancement of Natural Language Processing (NLP) due to its intricate and dynamic nature. reasoning over complex sports scenarios has posed significant challenges to current NLP technologies which require advanced cognitive capabilities. Toward a

sports understanding natural language processing large language models benchmarks reasoning

发现论文，激发创造

SportQA: 大型语言模型中的体育理解基准

SportQA 是一个专门设计用于评估大型语言模型在体育理解方面的新型基准，通过超过 70,000 个多项选择题，涵盖了三个不同难度级别，从基本历史事实到复杂的场景推理任务，综合使用少样本学习和思维链提示对主流大型语言模型进行了全面评估，结果表明，虽然大型语言模型在基本体育知识方面表现出色，但在更复杂的场景推理中表现不佳，与人类专业知识相比较有落后，引入 SportQA 为自然语言处理领域迈出了重要一步，为评估和提升大型语言模型的体育理解能力提供了一个工具。

Feb, 2024

Sports-QA：一项针对复杂和专业体育的大规模视频问答基准测试

本文介绍了第一个专门设计用于体育视频问答任务的数据集 ——Sports-QA 数据集，并提出了一种新的自动聚焦 Transformer（AFT），用于自动关注在问题回答中特定时间尺度的信息，通过对 Sports-QA 数据集的广泛实验研究，结果表明我们的 AFT 达到了最先进的性能。

Jan, 2024

大型语言模型是否能进行分析推理？

本文探讨了在体育领域中的先进大型语言模型与分析推理能力。我们的分析推理涉及了在 NBA 和 NFL 比赛中，大型语言模型计算每个队伍在一个季度中得分的任务。我们的主要发现有两个方面。首先，我们发现在我们使用的所有模型中，GPT-4 是最有效的，其次是 Claude-2.1，而 GPT-3.5、Gemini-Pro 和 Llama-2-70b 则落后。具体而言，我们比较了三种不同的提示技术和一种分而治之的方法，我们发现后者最有效。我们的分而治之方法将逐个拆解比赛数据为更小且更易处理的片段，分别解决每个片段，然后将它们聚合在一起。除了分而治之的方法，我们还探索了思维链（CoT）策略，该策略明显改善了某些模型，尤其是 GPT-4 和 Claude-2.1 的效果，它们的准确率显著提高。然而，对于 GPT-3.5 和 Gemini-Pro 等其他模型，思维链策略则几乎没有或甚至具有负面影响。其次，令我们惊讶的是，尽管在计算 NFL 季度得分方面表现出色，但大多数模型，包括 GPT-4，却在准确计算 NBA 季度总分方面遇到困难。这促使我们进一步研究影响分析推理任务复杂性的因素，并通过大量实验得出结论，即任务的复杂性取决于上下文长度、信息密度和相关信息的存在。我们的研究为分析推理任务的复杂性和未来大型语言模型的发展方向提供了有价值的见解。

Mar, 2024

体育领域的语言和多模态模型：数据集和应用调查

综述了自 2020 年以来推动这些创新的数据集和应用程序，对数据集进行了概述和分类，包括基于语言、多模态和可转换的数据集，强调了数据集对改善体育迷体验、支持战术分析和医学诊断等各种应用的贡献，并讨论了数据集开发的挑战和未来方向。该综述为希望在体育领域利用自然语言处理和多模态模型的研究人员和实践者提供了基础资源，提供了关于当前趋势和未来机会的洞察。

Jun, 2024

分析体育评论以自动识别事件并提取观点

我们研究了如何使用多种自然语言处理技术和方法自动识别体育赛事中的主要动作，并通过分析来自不同来源的现场体育评论以及将这些主要动作分类来提取洞察。我们还研究了情感分析是否能够帮助检测这些主要动作。

Jul, 2023

使用语言模型：将自然语言理解视为问答

该研究针对自然语言理解问题，通过将其映射到问题回答领域，研究了特定的迁移学习方法，并显示出在低数据环境下，与其他方法相比可以带来显著的改进，特别是通过跨不同领域的 NLU 问题进行顺序转移学习可增加其收益，并可将所需数据减少高达 10 倍。

Nov, 2020

针对大型语言模型的时间推理能力的基准测试和改进

本文介绍了一个全面的测试数据 empreason 来评估大语言模型的时间推理能力，包括三个时间推理水平的问题，并提出了一种基于时间跨度提取和时间敏感的强化学习的新型学习框架来提高其时间推理能力，并证明了其有效性。

Jun, 2023

奥林匹克竞技场：对超智能人工智能的多学科认知推理进行基准测试

人工智能的进化已经显著加速，主要得益于大型语言模型和大型多模态模型的进展，在问题解决和科学发现方面逐渐展现出与人类智力相当的潜在认知推理能力（即 AI4Science）。为了全面评估当前模型在认知推理能力方面的表现，我们引入了奥林匹克竞技场（OlympicArena），其中包含了 11,163 个双语问题，涵盖了文本和图像两种模态。这些挑战囊括了七个领域和 62 个国际奥林匹克竞赛的各种学科，经过严谨的数据泄露检测。我们认为，奥林匹克竞赛问题中的挑战非常适合评估 AI 的认知推理能力，因为这些问题具有复杂性和跨学科性质，对于解决复杂科学难题和促进发现非常重要。通过答案评估各学科中的表现之外，我们从多个角度进行了详细的实验和分析，深入探讨了模型的认知推理能力，它们在不同模态下的表现以及在解决长篇解答复杂推理任务中的结果。我们广泛的评估显示，即使是像 GPT-4o 这样的先进模型也只能达到 39.97% 的整体准确率，这说明当前人工智能在复杂推理和多模态整合方面存在局限性。通过奥林匹克竞技场，我们旨在推进人工智能走向超级智能，使其能够应对更复杂的科学和其他挑战。我们还提供了一套全面的资源来支持人工智能研究，包括基准数据集、开源注释平台、详细评估工具和带有自动提交功能的排行榜。

Jun, 2024

SportsMetrics: 融合文本和数值数据以理解 LLM 中的信息融合

大型语言模型在整合文本文档和数据库记录等各种数据类型进行高级分析方面具有重要潜力。然而，混合文本和数值数据面临着很大的挑战。本文介绍了围绕体育数据分析的四个新颖任务，用于评估大型语言模型的数值推理和信息融合能力。这些任务涉及提供详细的场上比赛描述，并向模型提出具有挑战性的场景，例如新的比赛规则、更长的比赛时间、混乱的故事情节以及分析比赛摘要中的关键统计数据。我们在 NBA 和 NFL 比赛上进行了大量实验证明大型语言模型在这些任务上的表现。我们的基准测试系统 SportsMetrics 引入了一种评估大型语言模型数值推理和融合能力的新机制。

Feb, 2024

GameBench：评估 LLM 代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT 和 RAP）能够提高分数。

Jun, 2024