理解中文量词的使用

ACLSep, 2022

Understanding the Use of Quantifiers in Mandarin

Guanyi Chen, Kees van Deemter

TL;DR通过对具有数量表达的简短文本的语料库进行研究，我们验证了黄氏 “coolness” 假说，即东亚语言说者说话时，他们倾向于讲得更简洁含义却不够丰富。通过与英语语料库进行比较，研究表明了量词使用的某些方面支持上述假说，文中探讨了这些发现对量化名词短语生成的影响。

Abstract

We introduce a corpus of short texts in Mandarin, in which quantified expressions figure prominently. We illustrate the significance of the corpus by examining the hypothesis (known as Huang's "coolness" hypothesis) that speakers of east asian languages tend to speak more briefly but l

mandarin corpus quantified expressions coolness hypothesis east asian languages quantifier use

发现论文，激发创造

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

基于改进的传统中文评估套件的基础模型

我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Mar, 2024

阿里巴巴 - 翻译 2022 WMT 质量评估共享任务中国提交

本研究使用 UniTE 框架，通过预训练语言模型的三种输入格式进行训练，并采用数据修剪和评分规范化策略来减小预训练和微调之间的差距。使用了过去多年的 WMT 比赛的 Direct Assessment 和 Multidimensional Quality Metrics 数据。最终将两个 UniTE 模型（XLM-R 和 InfoXLM）的预测进行集成，取得了在多语言和英俄设置中的第一名以及在英德和中英设置中的第二名的表现，表明了相对强的性能。

Oct, 2022

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

中文医药大语言模型中的健康相关原子知识的计算分析

通过构建基准测试并评估通用和专用语言模型，我们发现通用语言模型在原子知识和指令遵循能力方面表现更好，而专用语言模型在提供安全性方面表现较差，在提炼数据方面可以通过通用语言模型学习。此外，我们还发现提炼数据对于专用语言模型的微调效果最佳。

Oct, 2023

使用 MultiQ 评估大型语言模型的基础多语言能力

研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入 MultiQ 标准测试并评估 27.4k 个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Mar, 2024

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024

QuaCer-C: LLM 中知识理解的定量认证

提出了一种新的 QuaCer-C 证明框架来正式认证流行的 LLMs 的知识理解能力，通过高置信度的概率上界，证明 LLMs 在任何相关知识理解提示上给出正确答案的能力与参数数量的增加而提高，Mistral 模型在这个评估中表现不佳。

Feb, 2024

韩国大型语言模型的实用能力评估

通过评估 Large Language Models（LLMs）的现状，我们探讨了 LLMs 在韩语背景下的语用能力，包括常规的多项选择题和开放式问题的评估，结果显示 GPT-4 在两种评估设置中表现出色，分别获得 81.11 和 85.69 分，HyperCLOVA X 也得到了良好的分数，尤其在开放式问题的评估中，获得了 81.56 分，与 GPT-4 相比仅相差 4.13 分，而使用 CoT 提示的少样本学习策略则引入了对字面解释的偏见，限制了准确的语用推理能力，这些发现强调了提升 LLMs 在理解和传达超出字面解释的复杂意义方面的重要性。

Mar, 2024