Transformer全新里程碑!诞生6年,开山之作被引近8万
时间:2025-03-17 15:48:00 来源:水桥皓阳网 作者:探索 阅读:366次
编辑 :桃子 好困【新智元导读】Transformer ,新里6岁了!程碑2017年,诞生Attention is 年开All You Need奠基之作问世,至今被引数近8万。作被这个王者架构还能继续打多久?2017年6月12日 ,引近Attention is 新里All You Need ,一声炸雷 ,程碑大名鼎鼎的诞生Transformer横空出世 。
它的年开出现,不仅让NLP变了天 ,作被成为自然语言领域的引近主流模型 ,还成功跨界CV,新里给AI界带来了意外的程碑惊喜 。到今天为止 ,诞生Transformer诞生6周年。而这篇论文被引数高达77926 。英伟达科学家Jim Fan对这篇盖世之作做了深度总结:1. Transformer并没有发明注意力 ,而是将其推向极致。第一篇注意力论文是在3年前(2014年)发表的。这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」 。它是「RNN+上下文向量」(即注意力)的组合。或许很多人都没有听说过这篇论文 ,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。2. Transformer和最初的注意力论文,都没有谈到通用序列计算机 。相反,两者都为了解决一个狭隘而具体的问题:机器翻译 。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译 。3. Transformer发表在2017年的NeurIPS上,这是全球顶级的人工智能会议之一。然而,它甚至没有获得Oral演讲,更不用说获奖了。那一年的NeurIPS上有3篇最佳论文。截止到今天,它们加起来有529次引用。Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。对此,Jim Fan认为,在一项出色的工作变得有影响力之前,很难让人们认可它。我不会责怪NeurIPS委员会——获奖论文仍然是一流的 ,但影响力没有那么大。一个反例是ResNet 。何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧 ,得到了正确的认可 。2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样 ,很少有人能预见自2012年以来深度学习的海啸 。OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣,并表示,介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍。而且从历史上看 ,这两篇论文都非常普通,但有趣的是恰好都是为机器翻译而开发的。你只需要注意力!Transformer诞生之前 ,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。然而,RNN及其衍生的网络最致命的缺点就是慢 。关键问题就在于前后隐藏状态的依赖性 ,无法实现并行。Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。2017年,8位谷歌研究人员发表了Attention is All You Need 。可以说,这篇论文是NLP领域的颠覆者。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了?」JimFan所称Transformer当初的设计是为了解决翻译问题,毋庸置疑。谷歌当年发的博客,便阐述了Transformer是一种语言理解的新型神经网络架构。文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html具体来讲 ,Transformer由四部分组成:输入 、编码器、解码器,以及输出 。输入字符首先通过Embedding转为向量,并加入位置编码(Positional Encoding)来添加位置信息。然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征,最后输出结果。如下图所示,谷歌给出了Transformer如何用在机器翻译中的例子。机器翻译的神经网络通常包含一个编码器,在读取完句子后生成一个表征 。空心圆代表着Transformer为每个单词生成的初始表征 。然后 ,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示。接着 ,将这个步骤对所有单词并行重复多次,依次生成新的表征 。同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词,还关注编码器生成的最终表征。2019年 ,谷歌还专门为其申请了专利。自此 ,在自然语言处理中,Transformer逆袭之路颇有王者之风。归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer) ,都起源于这篇17年的论文 。然而,Transformer燃爆的不仅是NLP学术圈。万能Transformer:从NLP跨到CV2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:不仅涉及自然语言 ,还涉及非常不同的输入和输出,如图像和视频。没错 ,在NLP领域掀起巨浪后,Transformer又来「踢馆」计算机视觉领域 。甚至,当时许多人狂呼Transformer又攻下一城。自2012年以来 ,CNN已经成为视觉任务的首选架构 。随着越来越高效的结构出现 ,使用Transformer来完成CV任务成为了一个新的研究方向 ,能够降低结构的复杂性,探索可扩展性和训练效率。2020年10月 ,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN),可以直接用Transformer对图像进行分类。值得一提的是,ViT性能表现出色,在计算资源减少4倍的情况下 ,超过最先进的CNN 。紧接着,2021年 ,OpenAI连仍两颗炸弹,发布了基于Transformer打造的DALL-E,还有CLIP。这两个模型借助Transformer实现了很好的效果。DALL-E能够根据文字输出稳定的图像 。而CLIP能够实现图像与文本的分类 。再到后来的DALL-E进化版DALL-E 2 ,还有Stable Diffusion,同样基于Transformer架构,再次颠覆了AI绘画 。以下,便是基于Transformer诞生的模型的整条时间线。由此可见,Transformer是有多么地能打 。2021年,当时就连谷歌的研究人员David Ha表示 ,Transformers是新的LSTMs。而他曾在Transformer诞生之前,还称LSTM就像神经网络中的AK47 。无论我们如何努力用新的东西来取代它 ,它仍然会在50年后被使用 。Transformer仅用4年的时间 ,打破了这一预言。新硅谷「七叛徒」如今 ,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了 ?Jakob Uszkoreit被公认是Transformer架构的主要贡献者。他在2021年中离开了Google ,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA。到目前为止,他们已经筹集了2000万美元 ,并且团队规模也超过了20人。Ashish Vaswani在2021年底离开Google,创立了AdeptAILabs 。可以说,AdeptAILabs正处在高速发展的阶段 。目前,公司不仅已经筹集了4.15亿美元 ,而且也估值超过了10亿美元 。此外 ,团队规模也刚刚超过了40人。然而,Ashish却在几个月前离开了Adept 。在Transformers论文中,Niki Parmar是唯一的女性作者。她在2021年底离开Google ,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs 。不过 ,Niki在几个月前也离开了Adept。Noam Shazeer在Google工作了20年后,于2021年底离开了Google。随后,他便立刻与自己的朋友Dan Abitbol一起,创立了Character AI。虽然公司只有大约20名员工,但效率却相当之高。目前,他们已经筹集了近2亿美元 ,并即将跻身独角兽的行列。Aidan Gomez在2019年9月离开了Google Brain,创立了CohereAI。经过3年的稳定发展后,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。与此同时,公司筹集到的资金也即将突破4亿美元大关。Lukasz Kaiser是TensorFlow的共同作者人之一 ,他在2021年中离开了Google ,加入了OpenAI。Illia Polosukhin在2017年2月离开了Google,于2017年6月创立了NEAR Protocol 。目前 ,NEAR估值约为20亿美元 。与此同时,公司已经筹集了约3.75亿美元,并进行了大量的二次融资。现在 ,只有Llion Jones还在谷歌工作 。在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」网友热评走到现在 ,回看Transformer,还是会引发不少网友的思考。AI中的开创性论文。马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃 。这件事说明了,即使在这样的一级研究水平上,也很难预测哪篇论文会在该领域产生何种程度的影响 。这个故事告诉我们 ,一篇研究文章的真正价值是以一种长期的方式体现出来的。哇,时间过得真快!令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP。在我攻读博士期间,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可 ,但随着时间的推移,它们最终会改变世界 。我们不应该为奖项而奋斗 ,而应该专注于有影响力的研究!参考资料:https://twitter.com/DrJimFan/status/1668287791200108544https://twitter.com/karpathy/status/1668302116576976906https://twitter.com/JosephJacks_/status/1647328379266551808举报/反馈(责任编辑:焦点)
上一篇:英超最新积分榜:曼城逆转结束4轮不胜,切尔西2连败跌入下半区
下一篇:NBA | 库里空砍34分勇士再负雷霆 榜眼霍姆格伦成勇士梦魇3岁男童被拐1050天,人群中一眼认出父亲,跑上去紧紧抱住不放手
下一篇:NBA | 库里空砍34分勇士再负雷霆 榜眼霍姆格伦成勇士梦魇3岁男童被拐1050天,人群中一眼认出父亲,跑上去紧紧抱住不放手
相关内容
- ·雷霆万钧!中国女排得分暴虐加拿大,李盈莹统治全场刘亦菲上学时没人追?当看到她的学生照后,网友:我也不敢追
- ·[瞎话板]美媒晒卡椒炮合照:谁能拦阻他们?船记:一个梗即可作答
- ·夺冠概率6%!勇士总冠军含金量如何,近十年仅次于骑士首冠!长期不穿内衣的女性,身体会发生哪些变化?女孩子不要羞于了解
- ·关于灰熊你可能不知道的 10 件事
- ·东风本田新款UR-V正式上市 售价24.68-32.98万元成人网站何其多,国家为何不彻底关闭?是做不到还是不想做?
- ·快船或将与其分手,明年自由市场开启,卢的下一站将是哪里?地震级交易!欧文加盟热火,联手巴特勒?库班一石二鸟,再见湖人
- ·枸杞奈何样吃?养生食物枸杞的服法大全
- ·Shams:有球队给过奇才更好报价,但
最新内容
- ·首发狂轰109分!东部第一名不虚传,怀特单场得分王,布朗被驱逐善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”
- ·原创 机会来了?急需补强一号位的火箭可以考虑吃下保罗的合同?
- ·西瓜标注3斤多复称不到1斤,超市:带皮份量,主顾不知足已经退款
- ·黄子佼连爆13位艺人黑料 她们分说是……
- ·诚意满满!库里加盟猛龙,迎冠军锋线助攻!
- ·25岁大胡子1球进西甲!他曾让梅西罕见失态,动手报复染红张子枫未修生图流出,被网友公开批评:她的胸碍了谁的“意淫梦”?
- ·收获联赛第七!意甲-基耶萨抽射建功 尤文图斯1-0乌迪内斯戏拍一半被“炒鱿鱼”的6位明星,有人摆谱被除名,有人败给资本
- ·美记:比照比尔去太阳,更喜爱湖人将范弗
- ·欧冠 | 多特蒙德力克米兰 拉齐奥胜凯尔特人42天阵亡25000人,2万亿美元打水漂,专家:这一仗打醒了全世界
- ·民间:新西兰奥克兰城将与上海申花等中超俱乐部睁开相助交流
热点内容
- ·德甲最新积分榜:勒沃库森1-1,4分领跑!拜仁第二 斯图加特排第三
- ·【观察】凯尔特人抢七兵败,主帅马祖拉是去还是留?NBA3消息,热火3换1追超级球星,约基奇获2.72亿合同,恭喜巴特勒
- ·U20女足亚洲杯:中国胜中国台北
- ·【流言汇总】火箭有意范弗利特 雄鹿欲留米豆大洛老照片:对越反击战中战士在战壕中看家人照片一幕,看着照片格外幸福
- ·原创 季中赛步行者为什么打不过湖人?球迷实在是忍不住把话说透了
- ·大四男生实习薪资1万4妈妈仰天大笑:可能放心享受生涯了!
- ·Jr.NBA校园篮球联赛北京站落幕
- ·原创 月球上没有火箭和发射基地,嫦娥五号怎样离开月球和返回地球?
- ·近11场8胜防守效率第二,快船四巨头终于有了冠军相?
- ·国家男足亚运队金华校园行 传承足球精神汇聚梦想1973年,第一届香港小姐看看能认出几个,当时都是纯天然的大美女