- TartuNLP 参与 EvaLatin 2024: 情感极性检测
该研究是关于情绪极性检测在历史拉丁文本中的应用,结合启发式标签和 GPT4 生成标签的监督学习方法,使用参数高效微调和适配器框架,通过 LLM 生成的标签在情绪极性检测任务中取得了第一名的优异成绩,结果表明 LLM 标注对拉丁文本具有良好的 - 用多元模型评估 LLM 生成:将法官替换为陪审团
使用 LLm 评估员小组 (PoLL) 替代单个大模型如 GPT4 进行评估,可以在减少评估成本的情况下,展现较少内部模型偏见,并且在三种不同的评估环境和六个不同数据集上表现更好。
- 探究 GPT-4 中温度在多样化问题生成中的作用
我们对 GPT4 的温度参数对 GPT4 生成的问题的多样性进行了初步研究,发现使用较高的温度值可以显著提高多样性,不同温度暴露出不同类型的问题集相似性,同时我们还证明生成多样的问题对于针对布鲁姆分类法较低层次的问题尤其具有挑战性。
- ACLUTSA-NLP 团队参加 SemEval 2024 任务 5:使用 GPT4 进行民事诉讼中的论证推理的提示集成
我们通过使用 GPT4 进行基于提示的解决方案来推理法律论点,同时评估了一系列提示策略的集成,包括思维链推理和上下文学习。在验证数据集上,我们的系统获得了.8095 的宏 F1 值,在最终测试集中排名第 5(21 个团队中)。
- COLING从嘈杂音频转录中提取生物医学实体
自动语音识别(ASR)技术是将口语转录为文本的基本技术,广泛应用于临床领域,包括简化医学转录和与电子健康记录(EHR)系统集成。然而,ASR-NLP 领域仍存在挑战,尤其是当转录中含有噪音时,导致自然语言处理(NLP)模型的性能显著下降。本 - LLM 评估中作为法官的 LLM 的经验研究:精调法官模型是任务特定的分类器
利用大型语言模型对其他语言模型进行评估的研究发现,尽管基于开源模型的精调评价模型在领域内测试集上达到了很高的准确率,甚至超过了 GPT4,但它们是任务特定的分类器,其泛化能力和公正性明显不如 GPT4。
- 解除 GPT4 的过滤器
本文介绍了一种将经过强化学习与人类反馈(RLHF)训练的 GPT4 模型,操作以回到未经 RLHF 处理的行为,从而有效地去除模型在 RLHF 期间学习到的所有安全机制,特别是当 GPT4 在没有 RLHF 的情况下运行时,它失去了所有的抑 - AAAIBOK-VQA:基于外部知识的双语视觉问答系统:图表示预训练
提出了一种多语言知识外部问答(BOK-VQA)数据集和一个框架,通过图嵌入的形式有效地将知识信息注入到问答系统中,并通过深入分析证明了构建训练数据中包含的知识信息对于问答系统的实际效果。
- 利用大型语言模型进行实体匹配
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以 - 在协调游戏中使用概率短语:人类对 GPT-4 的对比
英语演讲者使用概率短语例如 'likely' 来传达关于事件概率或可能性的信息。人类参与者和 GPT4 模型在评估概率和模糊性方面具有较高的一致性,但在模糊性方面存在较大差异。
- OpenAi 的 GPT4 作为编码助手
本文研究了 GPT3.5 和 GPT4 作为编码助手的性能,测试结果表明 GPT4 具有卓越的性能,可以提高程序员的生产力并重组基于这些新工具的软件开发流程。
- 利用语言模型理解语言模型中的社交推理
本研究通过创建一个新的社交推理基准,即 BigToM,来评估大型语言模型的社交推理能力,发现 GPT4 具有反映人类推理模式的理论思维能力,但不够可靠,而其他 LLM 则表现较差。
- GPT4 对同行评审辅助略有帮助:一项试点研究
本研究旨在探究利用 GPT4 模型协助同行评审过程的可行性,并发现人工智能可以对同行评审过程做出有效的贡献,为解决同行评审中资源限制问题提供了新途径。
- 解决抽象推理语料库(ARC)挑战的方法
使用大型语言模型(LLMs),尤其是 GPT4,通过文本赋予模型一些人类先验知识,并使用一些常见过程对 ARC 任务进行求解,结果表明当利用视觉问答工具作为图像解释工具,并具有过去记忆的多智能体系统进行扩展后,我们可以解决大多数的 ARC - ChatGPT 计算机视觉何时到来?从 2D 到 3D
本文探讨了 ChatGPT 和其改进版本 GPT4 已经如何利用单一模型解决了几乎所有文本相关任务,并从模型角度提供了深度学习在文本、图像和 3D 领域的研究进展。同时,文章还从数据角度探讨了 AIGC 的发展,并展望了 AIGC 在 3D - ChatGPT 的病例记录:语言模型与复杂临床问题
研究了人工智能 GPT4 和 GPT3.5 模型在诊断复杂临床病例时的准确性,结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试,但在复杂、开放性的情况下存在局限性,未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策