历史问题中大型语言模型（LLM）的响应能力评估

Jun, 2024

历史问题中大型语言模型（LLM）的响应能力评估

Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens

Mathieu Chartier, Nabil Dakkoune, Guillaume Bourgeois, Stéphane Jean

TL;DR通过对十个选择的大型语言模型在法语历史事实方面的回应进行评估，我们发现大型语言模型在内容和形式方面存在许多不足之处，包括整体准确率不够高、对法语的处理不均衡以及回应中的冗长和不一致性问题。

Abstract

large language models (llms) like ChatGPT or Bard have revolutionized information retrieval and captivated the audience with their ability

large language models information retrieval llms historical facts french language

发现论文，激发创造

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

若语源能言：评估大型语言模型在历史研究辅助中的应用

通过给强大的大型语言模型（LLM）增加来自高度专业化学术源的向量嵌入，我们展示了一种基于对话的方法可以使历史学家和其他人文学科的研究人员能够使用 LLMs 来检查不同类型文档的自定义语料库，并评估了 LLMs 在问题回答和数据提取组织两大任务上的表现。

Oct, 2023

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

使用 LLMs 评估学生的开放式书面答案：基于 RAG 框架，针对 GPT-3.5，GPT-4，Claude-3 和 Mistral-Large 进行

教育工作者评估开放式书面考试答案是一项需要大量精力、一致性和准确性的重要任务。本研究探索了大型语言模型在评估大学生对参考资料提出的开放式问题的答案时的效果，发现 LLMs 的一致性和评分结果存在显著差异。进一步的比较研究对于确定使用 LLMs 进行教育评估的准确性和成本效益至关重要。

May, 2024

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

基于大型语言模型的文档级机器翻译

本文研究利用 Chat-GPT 建立的大型语言模型在文档级机器翻译中的应用，通过评估话语建模的能力，比较它与商业翻译系统和高级文档级机器翻译方法的性能，发现 Chat-GPT 在人类评估方面表现优异，同时揭示了话语建模的挑战和机遇。

Apr, 2023

电信领域中 LLMs 的能力和局限性观察

本文分析了引入生成式人工智能（AI）的大型语言模型（LLMs）—— 如 OpenAI 的 ChatGPT、GPT3.5 和 GPT4、谷歌的 Bard、Large Language Model Meta AI（LLaMA）等 —— 在通信界面（特别是企业无线产品和服务）中应用的能力和局限性，并针对 Craddlepoint 公开数据进行多个用例的比较分析，包括领域自适应、内容连贯性、输入扰动和错误的鲁棒性。我们相信这种评估将为数据科学家提供建立面向领域特定需求的定制对话接口的有用见解。

May, 2023

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024