Apr, 2016

基于字符级神经网络的 SUMMA 项目跨语言媒体监测翻译

TL;DR通过使用序列到序列的神经翻译模型的低维语义表示能力,该论文尝试解决自动多语种新闻监测中出现的两个问题:将电视和广播节目 ASR 转录分割成单个故事,对来自各种来源和语言的单个故事进行故事线聚类。为了实现多语种神经翻译的联合多任务学习,论文使用滑动窗口机制替换注意力机制,并在字符级别而非单词级别上操作序列到序列的神经翻译模型处理分割和聚类问题。通过检查作为神经翻译过程副产品产生的低维向量,解决分割故事和故事线聚类问题的方法值得进一步研究。