AI圈头条!注意力是你的全部需求,Google Brain的NLP的基础工作,Transformer架构的鼻祖,有图和代码不一致的问题。
今天,谷歌的开创性论文“注意力是你的全部需要”中的transformer架构的原始图表被发现是不正确的,LayerNorm位于错误的位置。然而,一篇新论文表明,结合前LN和后LN可以解决梯度爆炸和消失的问题。
地址:https://arxiv.org/abs/1706.03762.
代码地址:
https://github . com/tensor flow/tensor 2 tensor/commit/f 5 c 9 b 17 e 617 ea 9179 b 7d 84d 36 B1 e 8162 CB 369 f 25 # diff-76e 2 b 94 ef 16871 bdbf 46 BF 04 dfe 7 f 1477 bafb 884748 f 08197 c 9 cf 1 b 10a 4 DD 78 e
据悉,变形金刚架构是人工智能的基石。自2017年发表以来,该论文被引用超过7万次。在图表中发现错误引发了对该领域其他开创性论文准确性的质疑。
图表中的错误可能会导致转换器架构的错误实现,从而影响用其构建的模型的性能。
关于使用Pre-LN还是Post-LN的讨论正在进行,新论文中提出的两种方法的结合可能会导致人工智能模型开发的进一步发展。
声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。