日本 SimCSE 技术报告

Oct, 2023

Japanese SimCSE Technical Report

Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda

TL;DR开发了日本 SimCSE，使用 SimCSE 对日本句子嵌入模型进行了微调。在本研究中，我们通过对 24 种预训练的日本语或多语言语言模型、五个有监督数据集和四个无监督数据集进行广泛实验，提供了日本 SimCSE 的详细训练设置和评估结果。

Abstract

We report the development of japanese simcse, japanese sentence embedding models fine-tuned with SimCSE. Since there is a lack of sentence

japanese simcse sentence embedding models japanese multilingual language models supervised and unsupervised datasets

发现论文，激发创造

JCSE: 日语句子嵌入对比学习及其应用

我们提出了一种针对日语的句子表示模型 JCSE 进行领域自适应学习的新方法，通过在源域中生成语句并将其与目标域中的语句合成，生成用于对比学习的矛盾句对，优于直接迁移的其他训练策略，以及在低资源语言的下游任务中有实际应用的效果。

Jan, 2023

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架 SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

对比学习能够学习通用的跨语言句子嵌入

本文提出了 mSimCSE，在英文数据上进行对比学习，不需要平行数据，可以学习高质量的通用跨语种句子嵌入。在无监督和弱监督设置中，mSimCSE 在跨语种检索和多语 STS 任务上显著改进了先前的句子嵌入方法。在检索低资源语言和多语 STS 任务上，无监督的 mSimCSE 表现与完全监督的方法相当。当跨语言 NLI 数据可用时，性能可以进一步提高。

Nov, 2022

SentiCSE：一种基于情感的对比句嵌入框架，配备情感引导的文本相似度

该研究提出了 Sentiment-guided Textual Similarity (SgTS) 方法来评估情感表示的质量，然后通过结合词级和句级目标的 Sentiment-aware Contrastive Sentence Embedding (SentiCSE) 框架构建情感表示，并展示了其在情感分析任务中的优越性能。

Apr, 2024

InfoCSE: 句子嵌入的信息聚合对比学习

本文提出了一种信息聚合的对比学习框架 InfoCSE 用于学习无监督的句子嵌入，该框架引入了一个额外的掩蔽语言模型任务和一个经过精心设计的网络来强制 [CLS] 位置的表示聚合更密集的句子信息，并在语义文本相似性（STS）任务上取得了超越 SimCSE 的表现，平均 Spearman 相关性增加了 2.60％（BERT-base）和 1.77％（BERT-large），成为无监督句子表示学习方法中的最新成果。

Oct, 2022

ESimCSE: 对无监督句子嵌入进行对比学习的增强样本构建方法

提出了一种增强的无监督句子嵌入方法 (ESimCSE)，通过简单的文本操作和动量对比，来提高 SimCSE 在句子语义相似度任务方面的性能，与已有的无监督学习方法相比表现更好。

Sep, 2021

多语言通用句子编码器用于语义检索

本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型，并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中，以提高检索效率，与最先进的语义检索、翻译检索和检索问题回答模型相竞争，并在某些情况下超越了英文单语句子嵌入模型的表现水平。

Jul, 2019

用于自动评分的日英句子翻译练习数据集

自动评估句子翻译练习（STEs）的任务被提出，旨在为教育人员预设的每个评分标准对学生回答进行评分。使用一个包含 21 个问题和 3498 个学生回答的 STE 日语 - 英语数据集，作者展示了使用微调 BERT 和 GPT 模型的基线性能，结果表明微调 BERT 模型能以约 90% 的 F1 值对正确回答进行分类，但不到 80% 的不正确回答。此外，采用 few-shot 学习的 GPT 模型的结果较微调 BERT 差，表明我们提出的新任务对于最先进的大型语言模型来说是一个具有挑战性的问题。

Mar, 2024

从零开始对句子嵌入进行对比学习

本研究提出了 SynCSE，通过利用大型语言模型合成数据样本，训练具有良好性能的句子嵌入，对比试验结果显示 SynCSE 在无监督基准模型的基础上具有更好的性能。

May, 2023

关系句子嵌入用于灵活语义匹配

研究了建立新的 Relational Sentence Embedding（RSE）范式以更好地发现句子嵌入潜力，提出了一种关联嵌入学习方法，作用在源句子上，推断出使用现有的 Siamese-based encoder 的对应目标句子，从学习的嵌入中可以计算出细粒度的关系相似度得分。该方法在 19 个任务中进行了基准测试，取得了良好的效果。

Dec, 2022