据雷锋的《人工智能科学技术评论》报道,谷歌最近与多伦多大学等大学合作发表了一篇论文,提出了一个新的网络框架变压器。模型。
众所周知,在编解码框架中,主流的序列传导模型是基于RNN或CNN的,注意机制是连接编解码器的机制,Google提出的新的框架Transformer完全基于注意机制。
变压器是用来完成翻译任务的。实验表明,该模型性能良好,可并行化,大大缩短了训练时间。EL在WMT 2014英法翻译任务中。经过3.5天的8个GPU的训练,最佳BLEU评分为41.0,训练成本最低,达到了最佳性能。F数据集和有限数量的数据集。
注意机制是序列模型和传导模型的结合,允许模型相互依赖而不考虑输入和输出序列之间的距离。有时(很少)注意机制与RNN相结合。
编码器:编码器有6个完整的栈层,每个栈层有两个子层,第一层是多头自关注机制,第二层是简单的前馈网络全连接层,每一层都有残差和归一化。
解码器:解码器也由六个相同的堆栈组成,每个堆栈有三个子层,在代码堆栈的输出处充当多头注意机制。
注意:函数是将Query和一组键-值对映射到输出,因此查询、键、值和输出都是向量。输出是值的权重之和,权重由查询和与值对应的键计算。
雷锋认为,Google的模型在许多翻译任务中都取得了最好的效果,而其他识别任务中它的推广模型也取得了很好的效果。研究人员高兴地看到,该模型在其他任务中发挥了很好的作用。谷歌计划研究变压器的更广泛使用——其他形式的输入和输出,包括图像、音频和视频。