Stay Hungry
从训练和预测的角度来理解Transformer中Masked Self-Attention的原理 从训练和预测的角度来理解Transformer中Masked Self-Attention的原理
Transformer模型结构图在Transformer中Decoder会先经过一个masked self-attention层 使用Masked Self-Attention层可以解决下文提到的训练阶段和预测阶段Decoder可能遇到的所
2020-11-18
2 / 2