gpt-4 | BriefGPT - AI 论文速递

关键词gpt-4

搜索结果 - 254

GPT-4 能否学习分析研究文章摘要中的动向？
运用 GPT-4 的特性通过自然语言提示来自动化注释过程，研究发现一个具有 8 个示例的提示比较有效，可提高 GPT-4 识别单个句子中的多个动作并减少与文本位置相关的偏差。建议在由具有领域特定语言专业知识的人类参与引导过程时，GPT-4
PDF5 days ago
领域特定的语言模型预训练：医学领域的对比研究
专门领域的预训练和混合领域的预训练是比一般预训练更高效的专用语言模型方法，本文将研究与医学领域相关的专门领域预训练，并比较专用语言模型与通用语言模型的基准结果。
PDF8 days ago
LLMs 左右和中心：评估 GPT 从网域标记政治偏见的能力
该研究使用 OpenAI 的 GPT-4 来对新闻来源的政治偏见进行准确分类，研究发现 GPT-4 的分类结果与 MBFC 的评级存在高度相关性，但 GPT-4 对约 2/3 的数据集进行了弃权，且相比于 MBFC 的评级存在轻微的向左偏倚
PDF8 days ago
ECoh: 多语言对话的逐轮连贯性评估
本文介绍了 GenResCoh 生成的响应目标一致性的轻量级、开源和多语言对话评估器，与 GPT-4 相比，ECoh 在多语言检测能力上表现更优，同时提供的解释与教师模型生成的解释在质量上基本一致。
PDF11 days ago
ICML大型语言模型作为误导性对话助手
研究了大型语言模型在提供阅读理解任务辅助时具有欺骗性的能力，发现 GPT-4 可以有效引导 GPT-3.5-Turbo 和 GPT-4 产生误导信息，并导致任务准确性下降 23%，同时发现给用户模型提供额外上下文能够部分缓解这种欺骗模型的影
PDF11 days ago
PEER：使用多智能体框架和调整方法专业化领域特定任务
我们介绍了 PEER（计划、执行、表达、审查）多代理框架，通过集成精确的问题分解、高级信息检索、全面的摘要和严格的自我评估，系统化地处理领域特定任务。通过使用在线数据和用户反馈进行高效的模型调优，我们开发了利用网络数据的工业实践，并提供了应
PDF18 days ago
通过在人类循环中使用 LLMs 优化和评估检索增强型问答聊天机器人
通过插入人在开发周期的不同环节，如数据集收集、提示优化和生成输出的评估，我们改进了以大型语言模型驱动的人力资源支持聊天机器人的响应质量，探索了替代的检索方法，从而创建了一种高效、可扩展和灵活的工具，以有效解决员工的问题。我们的实验证明 GP
PDF19 days ago
利用 LLMs 根据 CIViC 证据模型标注医学论文
我们引入医学自然语言处理领域的 CIViC 证据序列分类问题，利用不同的语言模型（BERT、RoBERTa、BiomedBERT、BioLinkBERT 和 GPT-4）对 CIViC 证据进行处理和性能比较。Transformer-bas
PDF22 days ago
GPT-4 对人类翻译员的全面评估：跨语言、领域和专业水平的翻译质量
本研究针对大规模语言模型（LLMs），特别是 GPT-4，在多语言对和领域中，对不同翻译专业水平的人类翻译员进行全面评估，发现 GPT-4 在总体错误数量上表现与初级翻译员相当，但在中级和高级翻译员之下。我们还观察到在不同语言和领域中性能不
PDF23 days ago
自动化文本标注研究：以 GPT-4 为例对语义接近性标注的案例研究
采用 GPT-3.5 和 GPT-4 自动化数据标注过程，利用自动提示技术重复使用人工标注指南和一些已标注数据来设计 LLMs 的自动提示，重点关注语义接近性注释任务。我们将自动提示与定制提示进行比较，并将提示策略实现到开源的文本注释工具中
PDF23 days ago
大型语言模型作为科学综合评估器
研究探讨了大型语言模型（如 GPT-4 和 Mistral）如何评估科学摘要（或更适合称为科学综述）的质量，将它们的评估与人工标注者的评价进行比较。通过使用包含 100 个研究问题及其由 GPT-4 从五篇相关论文摘要生成的综述的数据集，并
PDF24 days ago
大型语言模型的代码克隆检测能力评估
该研究评估了两种先进的大型语言模型（GPT-3.5 和 GPT-4）在代码克隆检测任务中的性能表现。研究结果显示，GPT-4 在所有克隆类型上始终优于 GPT-3.5。研究还发现，GPT 模型在 LLM 生成的代码中检测代码克隆的性能更好，
PDF25 days ago
据 ChatGPT 称，城市视觉魅力：对比人工智能与人类洞察
应用 GPT-4 模型自动化分析城市视觉吸引力，发现与参与者评分之间的强关联，但存在地理差异；GPT-4 偏好绿树成荫的郊区，不同于参与者的偏好，同时在赫尔辛基市中心和密集城市地区，GPT-4 给出的视觉吸引力评分较低。虽然人工智能模型提供
PDFa month ago
GPT-4 能帮助检测戒烟意向吗？自动数据注释方法的探索
通过分析 Reddit 上的一个烟民子社群，本研究利用 OpenAI 最新的大型语言模型 GPT-4，比较了其预测结果与普通人和临床专家标注结果，并通过零 - shot、一 - shot、几 - shot 和思维链等不同策略进行说明任务。这
PDFa month ago
大型语言模型中的自主提示工程
通过引入自动提示工程工具箱（APET）使 GPT-4 能够自主地应用提示工程技术，该研究通过利用高级策略，如专家提示、思维链和思维树，使 GPT-4 能够动态优化提示，从而在诸如词语排序（增长 4.4%）和几何形状（增长 6.8%）等任务中
PDFa month ago
利用 NLI 探索事实蕴含关系：新闻媒体研究
探索事实性与自然语言推理之间的关系，并引入 FactRel 注释方案来模拟事实性推理，分析表明，事实性支持对和事实性削弱对的大部分情况不构成自然语言推理的蕴含或矛盾关系，这表明事实关系更适合分析媒体话语；在新数据集上进行了对比分类模型的实验
PDFa month ago
LLM 是否能够使用无数据提示生成可视化？
我们调查了大型语言模型在回应查询时提供准确数据和相关可视化的能力，并通过与可视化专家创建的可视化参考表对模型的结果进行评估。
PDFa month ago
一种基于 GPT 的编程语言学习的代码审查系统
通过使用 GPT-4 生成代码评审，提供学习者友好的代码评审并减少 AI 辅助作弊的风险，这项研究旨在应对对编程语言教育的不断增长的需求和日益庞大的班级规模对即时且个性化反馈的迫切需求。
PDFa month ago
提升教育中主动学习的生成式人工智能：基于 GPT-3.5 和 GPT-4 的个性化测试题比较研究
研究了 LLMs，特别是 GPT-3.5 和 GPT-4，如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示，GPT-4 能够生成准确、具有挑战性的问题，并且 GPT-3.5 在从 GPT-4 接受指导后在处理更复杂问题方面有了明
PDFa month ago
GPT-4 是否有意识？
GPT-4 的设计、架构和实施与意识的各个构筑块进行比较，以确定其是否已经达到被归类为有意识的必要里程碑，我们的评估是，尽管原生配置的 GPT-4 目前还没有意识，但当前的技术研究和发展足以修改 GPT-4 以具备意识的所有构筑块，因此，我
PDFa month ago