- DeID-GPT:GPT-4零痕迹医疗文本去识别
该研究使用GPT-4大型语言模型开发了一种名为DeID-GPT的新的医学文本数据去识别框架,通过在医学领域使用零-shot上下文学习识别模型保护隐私信息,并保留文本的原始结构和含义,比起现有方法DeID-GPT的准确性最高,可在更广泛的情境 - 自然语言推理问题中使用语言模型进行知识获取
本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法,并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。
- 抓住我就行:使用生成式预训练变压器的大型语言模型识别虚假医生评论
研究人工智能技术在区分真假医生评论方面的应用,发现GPT-3在分类医生评论方面优于传统机器学习方法,并且GPT-3表现不受样本量影响。通过对真假评论的对比,研究发现虚假评论比真实评论更具临床内容、情感保守,并且语法结构更完整。
- GPT-4能进行神经架构搜索吗?
本文探讨了GPT-4在神经结构搜索领域的潜力并提出了一种基于GPT-4的优化方法GENIUS,旨在通过较简单的启动方案利用GPT-4作为黑盒优化器快速寻找神经结构搜索空间中的有效候选方案并迭代优化,以改善性能,通过基准测试证明了GENIUS - 利用全局生成模型探索蛋白质序列空间
该研究总结了在蛋白质研究中使用语言模型的应用,包括设计新型人工蛋白质、使用非Transformer结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。
- ChatGPT的病例记录:语言模型与复杂临床问题
研究了人工智能GPT4和GPT3.5模型在诊断复杂临床病例时的准确性,结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试,但在复杂、开放性的情况下存在局限性,未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策的人机协 - ChatGPT计算机视觉何时到来?从2D到3D
本文探讨了ChatGPT和其改进版本GPT4已经如何利用单一模型解决了几乎所有文本相关任务,并从模型角度提供了深度学习在文本、图像和3D领域的研究进展。同时,文章还从数据角度探讨了AIGC的发展,并展望了AIGC在3D领域的发展。
- 利用人工智能梳理历史:GPT 3.5、GPT4和GoogleBARD的预测准确度和事实核查比较评估
本研究评估了三种大型语言模型LLMs(GPT 3.5、GPT 4和GoogleBARD)在预测和验证历史事件方面的性能,并引入了一个新的度量标准,即“距离现实(DTR)”,以评估模型的输出与已知历史事实的符合度。结果表明,AI在历史研究中具 - 电信领域中LLMs的能力和局限性观察
本文分析了引入生成式人工智能(AI)的大型语言模型(LLMs)——如OpenAI的ChatGPT、GPT3.5和GPT4、谷歌的Bard、Large Language Model Meta AI(LLaMA)等——在通信界面(特别是企业无线 - INSTRUCTSCORE:自动反馈的可解释文本生成评估方法
该研究介绍了INSTRUCTSCORE,一种可解释的用于评估文本生成的评估度量标准,通过利用显式人类指令和GPT4的隐式知识来创建评估度量标准。研究结果表明,INSTRUCTSCORE可以在不需要人类数据之间达到类似于COMET22等最先进 - ExpertPrompting:指导大规模语言模型成为卓越专家
本文介绍了一种使用 ExpertPrompting 技术的方法,通过 In-Context Learning 实现了定制化的指令,并将其用于训练基于 GPT-3.5 的 ExpertLLaMA 模型,实现了与 ChatGPT 相近的对话效果 - LLM们已经足够先进了吗?一个为大型语言模型提供挑战性问题解决基准的测试
本文介绍了一个新的基准数据集 JEEBench,用于评估 Large Language Models 的问题解决能力,其中包含了 450 个有挑战性的预工程数学、物理和化学问题。本文对 GPT 系列模型进行了评估,发现即使使用 Self-C - 通过使用翻译指示进行多语言微调,引发大型语言模型的翻译能力
本篇论文通过对一个多语种预训练语言模型XGLM-7B进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
- CONA:一种基于大型语言模型的上下文感知通信指令范例
CONA是一个灵活的框架,旨在利用大型语言模型的能力以及结合DIKW层次结构自动指导和优化演示内容,提供适应受众群体的上下文感知答案,是知识传播和交流领域中的一项创新工作,可以为日常知识共享场景提供有效支持。
- ACI-BENCH: 应用于基于情境的临床智能自动生成访问记录的基准数据集
介绍了医疗信息记录领域中基于生成模型的 AI 技术,提出了 Ambient Clinical Intelligence Benchmark (ACI-BENCH) 语料库,并对该语料库的性能评估进行了阐述。
- 解决抽象推理语料库(ARC)挑战的方法
使用大型语言模型(LLMs),尤其是GPT4,通过文本赋予模型一些人类先验知识,并使用一些常见过程对ARC任务进行求解,结果表明当利用视觉问答工具作为图像解释工具,并具有过去记忆的多智能体系统进行扩展后,我们可以解决大多数的ARC挑战问题。
- 统一大型语言模型和知识图谱:路线图
本文提出了使用知识图谱和大型语言模型的三种框架,分别为增强了的知识图谱、增强了的大型语言模型和协同增强。这三个框架能够互相协作,实现双向推理,提高自然语言处理和人工智能的表现,同时指出未来的研究方向。
- LLM认知能力的高效测量:自适应测试视角
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对ChatGPT等6种模型进行了 - 机器翻译可解释评估指标的研究
本概念论文介绍了可解释机器翻译指标的关键属性和目标,并提供了最新的基于生成模型的可解释性指标技术综合。同时,我们展望了下一代技术包括自然语言解释,并希望本文能够帮助促进和指导未来可解释评估指标的研究,同时有助于更好、更透明的机器翻译系统。
- 大规模多模型对齐与鲁棒指令调整
通过引入大规模的视觉指导优化数据集LRV-Instruction以及使用GPT4辅助视觉指导评估方法(GAVIE)来评估LMMs的视觉指导优化,本研究探究了LMMs的幻觉问题,并成功地缓解了幻觉并提高了该模型的性能。