开眼整夜睡眠！使用交替记忆进行跨时代序列分段

ACLSep, 2022

开眼整夜睡眠！使用交替记忆进行跨时代序列分段

That Slepen Al the Nyght with Open Ye! Cross-era Sequence Segmentation with Switch-memory

Xuemei Tang, Qi Su, Jun Wang

TL;DR本研究提出了 CROSSWISE，一种跨时代学习框架，可以用于中文分词，通过 Switch-memory 模块来整合不同年代的语言知识，并在四个语料库上的实验表明其性能显著提高。

Abstract

The evolution of language follows the rule of gradual change. Grammar, vocabulary, and lexical semantic shifts take place over time, resulting in a diachronic linguistic gap. As such, a considerable amount of texts are written in languages of different eras, which creates obstacles for natural language processing tasks, such as →

chinese language natural language processing cross-era learning word segmentation switch-memory module

发现论文，激发创造

神经网络中的中文分词：序列到序列翻译模型

提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型，拥有全局信息和多任务融合的能力，并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。

Nov, 2019

中文分词：另一篇十年回顾（2007-2017）

本文章回顾了中文分词（CWS）在最近的十年（2007-2017）的发展，特别关注了已经渗透到自然语言处理（NLP）大多数领域中的深度学习技术。作者得出的基本观点是，与传统的监督式学习方法相比，基于神经网络的方法还未表现出更优秀的性能，最关键的挑战仍然在于平衡对词汇内（IV）和词汇外（OOV）单词的识别。然而，由于神经模型有捕捉自然语言基本结构的潜力，因此我们对未来的显着进展持乐观态度。

Jan, 2019

基于分段语言建模的汉语无监督神经分词

本文提出了基于分段的语言模型处理无监督中文分词的方法，并使用上下文编码器和分段解码器设计了神经模型，达到了与最新统计模型相当的性能。

Oct, 2018

具有词典知识的神经网络中文分词

本文探讨了优化中文分词的策略，两种基于神经网络的方法被提出，分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。

Jul, 2018

时间感知的古代汉语文本翻译与推理

本文旨在解决翻译古代中文文本所面临的语言困境和信息缺失，提出采用多标签预测任务，预测翻译和具体年代，并以现代中文翻译为基础扩展为多语言输出，实验证明该框架在产生高质量翻译输出方面的有效性。

Jul, 2021

异质图神经网络的中文分词

本文提出了一个名为 HGNSeg 的框架，它利用预训练语言模型和异构图神经网络充分利用多层次的外部信息以提高中文分词的性能，并在六个基准数据集上进行了实验，证明了我们的方法的有效性。尤其是在跨领域情况下，我们的方法还表现出很强的缓解词表外（OOV）问题的能力。

Jan, 2022

中文神经分词学习

本文提出了一种新颖的神经网络框架，利用门控组合神经网络和 LSTM 语言评分模型，消除上下文窗口，可以利用完整的分词历史，产生分布式表示，从而实现中文分词，并在基准数据集上进行实验，结果不需要使用现有方法的特征工程，获得了与现有最先进方法相当甚至更好的性能。

Jun, 2016

El Volumen Louder Por Favor: 任务导向的语义解析中的语码转换

本研究的重点在于 Spanglish，提出了两种数据增强方法解决 CS 样本不足问题，结合少样本的情况，使零样本和全数据的准确度差距缩小了三分之二。

Jan, 2021

语音中的词边界挖掘作为自然标注的词分割数据

本研究提出了一种在跨领域和低资源情况下提高中文分词性能的方法，即从语音中的停顿中挖掘自然标注数据来训练 CWS 模型，并证明该方法能够显著提高 CWS 的性能。

Oct, 2022

ASRU 2019 年中英混合口语识别挑战赛：公开数据集、赛道、方法与结果

该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛，旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪中的结果以及系统性能，并讨论了模型训练和方法比较的其他细节。

Jul, 2020