谷歌推出了一套全新的基于注意力机制的翻译框架，注意你所需要的一切！

时间：2022-03-02 09:39:33 来源：admin 点击：次

据雷锋的《人工智能科学技术评论》报道，谷歌最近与多伦多大学等大学合作发表了一篇论文，提出了一个新的网络框架变压器。模型。

众所周知，在编解码框架中，主流的序列传导模型是基于RNN或CNN的，注意机制是连接编解码器的机制，Google提出的新的框架Transformer完全基于注意机制。

变压器是用来完成翻译任务的。实验表明，该模型性能良好，可并行化，大大缩短了训练时间。EL在WMT 2014英法翻译任务中。经过3.5天的8个GPU的训练，最佳BLEU评分为41.0，训练成本最低，达到了最佳性能。F数据集和有限数量的数据集。

注意机制是序列模型和传导模型的结合，允许模型相互依赖而不考虑输入和输出序列之间的距离。有时（很少）注意机制与RNN相结合。

编码器：编码器有6个完整的栈层，每个栈层有两个子层，第一层是多头自关注机制，第二层是简单的前馈网络全连接层，每一层都有残差和归一化。

解码器：解码器也由六个相同的堆栈组成，每个堆栈有三个子层，在代码堆栈的输出处充当多头注意机制。

注意：函数是将Query和一组键-值对映射到输出，因此查询、键、值和输出都是向量。输出是值的权重之和，权重由查询和与值对应的键计算。

雷锋认为，Google的模型在许多翻译任务中都取得了最好的效果，而其他识别任务中它的推广模型也取得了很好的效果。研究人员高兴地看到，该模型在其他任务中发挥了很好的作用。谷歌计划研究变压器的更广泛使用——其他形式的输入和输出，包括图像、音频和视频。