Dec, 2016

面向自适应机器翻译的商业域非监督聚类

TL;DR本文报告了关于自适应MT架构中的领域聚类。作者使用了五种不同的距离来进行标准的自底向上的层次聚类算法,针对40个商业领域构建了MT基准测试。作者比较了它们在树状图、内部和外部评价方面的优劣,主要结论是最昂贵的距离也是唯一一个能够让MT引擎在少量但高度聚集的域簇下保证良好性能的距离。