预训练语言模型在日语敬语转换上的句法泛化能力分析

ACLJun, 2023

预训练语言模型在日语敬语转换上的句法泛化能力分析

Analyzing Syntactic Generalization Capacity of Pre-trained Language Models on Japanese Honorific Conversion

Ryo Sekizawa, Hitomi Yanaka

TL;DR本研究旨在探讨预训练的大型语言模型是否可以像人类一样处理日语敬语。通过引入一项敬语转换任务，从不同句型的问题模板构建了一个日本敬语数据集，并测试了一个领先的大型语言模型 GPT-3 在此任务上的句法泛化能力。结果表明，在上下文敬语转换任务上，经过微调的 GPT-3 表现比基于提示的 GPT-3 更优秀。但当测试涉及直接言语的数据时，微调模型的句法泛化能力下降。

Abstract

Using japanese honorifics is challenging because it requires not only knowledge of the grammatical rules but also contextual information, such as

japanese honorifics large language models syntactic generalization contextual information social relationships

发现论文，激发创造

大型语言模型对日语提示的敏感性和鲁棒性

本文通过全面评估几个代表性的大型语言模型（LLMs）和广泛使用的预训练模型 T5，在基准日语数据集上对这些模型进行了审查，旨在评估和分析当前跨语言模型在这一背景下的性能，并提出了潜在的研究路径，以进一步提高大型语言模型在稳定性方面的性能。

May, 2023

神经语言模型中的语法推广的系统评估

我们对神经语言模型的句法知识进行了系统评估，发现模型架构的不同对句法泛化性能产生了显著影响，而不同数据集大小的影响相对较低。

May, 2020

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

LLMs 是否可以促进预训练语言模型的解释？

利用 ChatGPT 作为注释器，我们在预训练语言模型中发现潜在概念，并采用 GPT 注释进行注释。我们的发现表明，与人类注释概念相比，ChatGPT 产生了准确且语义更丰富的注释。此外，我们展示了 GPT-based 注释如何增强解释分析方法，其中我们展示了两个分析框架：probing framework 和 neuron interpretation。为了促进进一步的探索和实验，我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。

May, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

评估 GPT-4 和 ChatGPT 在日本医学执照考试中的表现

本文旨在评估 ChatGPT，GPT-3 和 GPT-4 在日本语言医学执照考试上的表现，并提出了当前 LLM API 的关键局限性，包括产生不合适的词语以及因脚本语言不同带来的高昂成本和较小的上下文空间。

Mar, 2023

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

通过使用翻译指示进行多语言微调，引发大型语言模型的翻译能力

本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验，展示了预训练语言模型在翻译任务中的较强能力，并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐，研究结果可启发模型改进。

May, 2023

大型语言模型是否遵循概念注释指南？科学和金融领域案例研究

大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型，根据我们的简单评估方法，我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。

Nov, 2023

大型语言模型的日本金融基准构建

本研究通过构建多个特定于日本和金融领域的任务基准和测量，确认 GPT-4 模型在所有性能范围内表现优异，并验证了该基准评估方法的有效性。

Mar, 2024