- 利用 NLI 探索事实蕴含关系:新闻媒体研究
探索事实性与自然语言推理之间的关系,并引入 FactRel 注释方案来模拟事实性推理,分析表明,事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系,这表明事实关系更适合分析媒体话语;在新数据集上进行了对比分类模型的实验 - LLM 是否能够使用无数据提示生成可视化?
我们调查了大型语言模型在回应查询时提供准确数据和相关可视化的能力,并通过与可视化专家创建的可视化参考表对模型的结果进行评估。
- 提升教育中主动学习的生成式人工智能:基于 GPT-3.5 和 GPT-4 的个性化测试题比较研究
研究了 LLMs,特别是 GPT-3.5 和 GPT-4,如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示,GPT-4 能够生成准确、具有挑战性的问题,并且 GPT-3.5 在从 GPT-4 接受指导后在处理更复杂问题方面有了明 - 展望更远:测试 GPT-4 在路径规划中的极限
大型语言模型(LLMs)在各种任务中展示了令人印象深刻的能力,然而它们仍然面临着长期规划的挑战。为了研究这一点,我们提出了路径规划任务作为评估 LLMs 在几何约束下导航长轨迹能力的平台。我们的基准测试系统地测试了复杂环境中的路径规划技能。 - ACL解读叙事:分析在 Reddit 上分享的个人药物经历
在线社区、物质使用经历、多层次分类模型、GPT-4、PWUD 经历。
- 使用 GPT-4 的二维零样本对话状态跟踪评估方法
我们提出了一种使用 GPT-4 的二维零样本评价方法,将对话状态跟踪 (DST) 评价分为准确性和完整性两个维度,并设计了两条手动推理路径来进一步提高评价准确性,实验结果表明我们的方法比基线方法取得了更好的性能,并且与传统的精确匹配方法一致 - MiniConGTS: 一个极简的对比网格标签方案,用于方面情感三元组抽取
提出了一种在 Aspect Sentiment Triplet Extraction 中利用预训练表示的方法,并通过整合简化标签方案和新颖的令牌级对比学习策略来改善和利用预训练表示,实现了与最先进技术相媲美或更好的性能,同时具有更紧凑的设计 - 一种基于知识组成的方法论用于评估 AI 助手
通过 GPT-4 大型语言模型提供的自动提示生成器,我们评估了一种针对 CS1 编程作业的系统,该系统提供关于学生如何改进错误解决方案的自然语言指导。我们回答了三个研究问题:RQ1. 提示是否帮助学生改进代码?RQ2. 提示在捕捉学生代码问 - 朝可靠性 Ad-hoc 科学信息提取迈进:基于两组材料数据的案例研究
探索 GPT-4 在从科学文献中进行特定模式的信息提取方面的能力,评估其是否能够通过基本的提示方法复制两个已存在的材料科学数据集,从最初手动提取的文稿中提取所需信息,并利用材料科学家的见解进行详细的手动错误分析,以确定模型在提取所需信息时的 - LLM 不是智能思考者:引入数学主题树基准评估来全面评估 LLMs
大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了 1,958 个关于 - 自然计划:对自然语言规划的 LLMs 基准测试
NATURAL PLAN 是一个真实的自然语言规划基准,包含三个关键任务:旅行规划、会议规划和日历安排。在任务的全信息下评估了 LLMs 的规划能力,通过提供 Google Flights、Google Maps 和 Google Cale - 使用迭代上下文学习获取大型语言模型先验
使用迭代学习方法,从大型语言模型(LLMs)中获取贝叶斯先验分布,并验证与人类先验的定性一致性。
- 利用大型语言模型进行实体匹配
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
- 多选题自动生成和标记的知识组件
我们使用 GPT-4 为高等教育课程中的化学和电子学习的多项选择题生成知识组件 (KCs),并通过三名领域专家的评估,分析了大型语言模型 (LLM) 生成的 KCs 与人工生成的 KCs 之间的差异。评估结果显示,非匹配的 KCs 中,评估 - LLMs 在高阶心理理论任务上达到成年人类表现
研究分析了大型语言模型 (LLMs) 是否已经具有更高阶的心智理论 (ToM) 社会心智能力,通过引入多阶心智问答手写测试集并将其用于与新收集的成年人基准进行比较,我们发现 GPT-4 和 Flan-PaLM 在总体上达到了成年水平或接近成 - 关于 GPT-4 在文档理解中的适用性注解
我们对所有公开可用的 GPT-4 系列模型在文档理解领域进行了遗漏和可重复评估,发现通过提供外部 OCR 引擎识别的文本和文档图像作为输入,GPT-4 Vision Turbo 模型在处理文本语义以外的文本空间排列和视觉线索方面表现良好。评 - LLM 之战:对话型 QA 任务的比较研究
通过对 ChatGPT、GPT-4、Gemini、Mixtral 和 Claude 在不同的会话问答语料库中生成的回答进行评估,本研究得出了这些最先进的语言模型的综合比较和评估结果,揭示了它们的能力,并突出了改进的潜在领域。
- 大型语言模型的估计不确定性评估
用统计的方法对 GPT-4 等大型语言模型进行估测不确定性的研究发现,虽然 GPT-4 在一些英文词组中与人类的估测结果接近,但在涉及到性别角色和中文语境时存在差异,证明人类与大型语言模型的估测结果尚有较大难以弥合的差距。
- 使用大型语言模型进行系统综述中的数据提取探索:快速可行性研究
该文章介绍了使用 GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。
- JiuZhang3.0:通过训练小型数据合成模型高效提升数学推理能力
基于 GPT-4 的数据合成能力,我们提出了一种通过训练小型语言模型来合成数学问题,以高效生成足够高质量的预训练数据的有效方法,并在数学推理数据集上展现了最先进的性能。