Transformer模型结构图在Transformer中Decoder会先经过一个masked self-attention层
使用Masked Self-Attention层可以解决下文提到的训练阶段和预测阶段Decoder可能遇到的所
2020-11-18