理解中文量词的使用
该研究针对传统汉语在现有基准测试中的低覆盖率,提出了适用于评估大型语言模型的 TMLU 综合评估工具,通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释,基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差,而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距,研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本以促进未来研究。
Mar, 2024
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
我们发布了 TMMLU+,这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集,包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比,TMMLU + 的规模增加了六倍,学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果,这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现,传统中文模型仍然落后于其简体中文模型。此外,目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。
Mar, 2024
本研究使用 UniTE 框架,通过预训练语言模型的三种输入格式进行训练,并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型(XLM-R 和 InfoXLM)的预测进行集成,取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现,表明了相对强的性能。
Oct, 2022
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
通过构建基准测试并评估通用和专用语言模型,我们发现通用语言模型在原子知识和指令遵循能力方面表现更好,而专用语言模型在提供安全性方面表现较差,在提炼数据方面可以通过通用语言模型学习。此外,我们还发现提炼数据对于专用语言模型的微调效果最佳。
Oct, 2023
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入 MultiQ 标准测试并评估 27.4k 个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。
Feb, 2024
提出了一种新的 QuaCer-C 证明框架来正式认证流行的 LLMs 的知识理解能力,通过高置信度的概率上界,证明 LLMs 在任何相关知识理解提示上给出正确答案的能力与参数数量的增加而提高,Mistral 模型在这个评估中表现不佳。
Feb, 2024
通过评估 Large Language Models(LLMs)的现状,我们探讨了 LLMs 在韩语背景下的语用能力,包括常规的多项选择题和开放式问题的评估,结果显示 GPT-4 在两种评估设置中表现出色,分别获得 81.11 和 85.69 分,HyperCLOVA X 也得到了良好的分数,尤其在开放式问题的评估中,获得了 81.56 分,与 GPT-4 相比仅相差 4.13 分,而使用 CoT 提示的少样本学习策略则引入了对字面解释的偏见,限制了准确的语用推理能力,这些发现强调了提升 LLMs 在理解和传达超出字面解释的复杂意义方面的重要性。
Mar, 2024