图片来源视觉中国
文丨亲爱的数据作者丨谭婧
DPU是人工智能芯片之后的又一大热点
业内人士笑谈那些投资人钻研DPU的热情比造DPU的人还高
有人在问DPU芯片是啥的时候创业公司里飘来一个熟悉的女声支付宝到账人民币一亿元没错就是融资额经常上亿
别说互联网大厂国字头大基金也刀背藏身眼睛直勾勾盯着DPU伺机而动
云厂商对DPU芯片的渴望是歇斯底里的逼得造DPU的人鼻孔喷血双眼冒火
而坊间有个说法DPU只有两个品牌亚马逊云和阿里云以及其他
DPU的故事要从好久之前讲起了
一
1998年美国斯坦福大学的球场上
尖尖绿草被阳光温柔抚摸孩子们尖叫雀跃球衣鲜艳带风奔跑
球场外一些家长等着接孩子回家他们中有的是斯坦福大学的同事及其家属
左右无事家长群里的两位闲聊了起来
最近在忙啥
创业了
创业方向是啥
在一台计算机上可以跑多个操作系统
提问的这位男士文质彬彬听到回答突然眼睛一亮脱口而出这个想法挺好很新鲜
最怕一流行家遇见了一流行家一聊就迸射火花
两位家长在球场边就地达成投资意向
这位家长不这位看准就出手的早期投资人气质儒雅风度翩翩
他就是张首晟著名华裔物理学家杨振宁的爱徒主要从事凝聚态物理领域的研究斯坦福大学终身教授
创业的那名家长也不简单叫黛安格林DianeGreen一位天赋型女性管理者从创业之日起就担任高管掌管公司长达十年之久
后话是她还管了一阵子谷歌云
此番操作把孩子们都看懵了
另一个孩子的爸爸黛安格林的老公是斯坦福大学教授孟德尔罗森布拉姆MendelRosenblum简称罗教授是公司的首席科学家他也是操作系统领域的世界级专家
彼时创业路上夫妇俩刚刚动身公司名叫VMware
二十多年后这家公司成为虚拟化技术领域的巨头
计算机技术的术语常常闪烁理性光芒而虚拟化这个词一看就是镜花水月太虚幻境把一种仙风道骨的玄幻气质拿捏得死死的
不意外虚拟化技术的一开始学术研究站C位
为数不多的高校在研究美国斯坦福大学英国剑桥大学
屈指可数的公司在探索IBM公司英特尔公司微软公司
上世纪70年代是虚拟化学术研究的黄金年代有多篇学术论文为这个方向奠定了理论基础
科学技术这行光凭论文不行得拿出东西来还得用起来
等有代表性的公司诞生年年等断肠从七十年代到九十年代一等二十年
据VMware公司CEO黛安格林回忆一天晚上罗教授回到家谈起工作他说我想重新审视虚拟化将隔离引入操作系统能同时运行新旧代码又不必构建一个新的操作系统
想法像洪水一样从脑中涌出罗教授非常激动睡醒的第二天就开始做原型
不久之后澎湃的行动力让罗教授和他的学生们实现了X86服务器的虚拟化
科学家的朋友圈往往光芒四射创始人集齐五位专家摆开了阵型对虚拟化发起冲锋这一次载入史册
攻下X86打开虚拟化由守转攻的新局面
相传虚拟化技术公司的文化和互联网企业文化不同
美国斯坦福大学的学生闭眼挑offer的时候说谷歌的文化吸引年轻人撸狗上班睡衣轰趴而VMware公司的员工则能在公司安稳地结婚生子
随后学术派传球至边路PC的虚拟化接球
虽然在小型PC机时代虚拟化不是刚需但是开创了硬件新玩法沸腾了极客的热血
小心翼翼问一句虚拟化是不是在骗CPU
理直气壮回答CPU有一种被骗的能力
虚拟化技术很厉害还是要戒骄戒躁后面的路还长
二
无疑VMware公司是成功的当开源世界崛起软件甩开商业软件的统治开源极客走上舞台
请大家记住这两个虚拟化技术的精神小领伙袖因为他们对DPU的发展至关重要
按姓氏笔画排序安东尼李国瑞AnthonyLiguori美国人张献涛中国人
2001年英国剑桥大学计算机实验室IanPratt教授带着几个博士生做了一个非常知名的虚拟化项目
叫Xenproject
Xen的读音和than有点像但不完全一样发音不吐舌头
Xen有一个庞大的活力十足的开发社区深远地影响了云计算虚拟化和安全
两年后XenX86虚拟机监视器的第一个稳定版本就问世了
2004年张献涛在武汉大学念博士多年寒窗没有少下功夫他技术水平强动手能力更强
技术大神何愁去处可张献涛还是有些担心因为虚拟化技术的择业面太小了
读博士勤奋很重要有一位好的博士导师也重要
张献涛的博士导师是全球知名的密码学家卿斯汉张献涛一定是花掉了很多运气才遇到了这么一个好导师
他一脸慈祥地对张献涛说虚拟化这个研究方向我和英特尔有合作你先去那里实习别担心我帮你安排剩下的要看你自己了
而今看来卿斯汉教授将张献涛送去企业实习是完完全全从学生的利益考虑
有些博士导师那是死活都不愿意放博士生出去干活此处省略三千字吐槽
于是张献涛从一名英特尔的实习生做起一做就是3年时光飞逝技术水平飞涨他于2008年正式入职英特尔
他可能也没有想到这份工作一干就是9年
把镜头摇到2002年的美国IBM公司虚拟化的另一个前沿阵地
一位名叫安东尼李国瑞的大学生在学校读书期间一直在IBM实习每周20小时连续四年风霜雪雨从不间断
2006年安东尼入职IBMLinux技术中心成为一名软件工程师这份工作一干就是7年
人这一生找到一个真心喜爱的技术作为爱好然后不计成本地付出时间和耐心用心打磨收获的将不只是一个拿得出手的技能
更重要的还有一个脱胎换骨的自己
也许某日傍晚红霞染尽天边张献涛在看云安东尼也在看云可能会有那么一瞬间他们都意识到自己要和这个名字极富诗意的技术打一辈子交道了
世间因缘因缘世间
三
芯片江湖有人有酒有故事就有批评英特尔的声音
PC为王的时代因为虚拟化不是主流所以英特尔X86指令集对虚拟化的服务态度很不友好
这锅得英特尔背还背到了2005年
英特尔在那一年才笑脸相迎态度友好在CPU里面做了一些扩展指令集
这次重拳扭转了虚拟化的乾坤
那一年的年11月英特尔宣布产品支持硬件虚拟化VTxVTdAMD也屁颠跟上宣布产品支持硬件虚拟化SVM
别看姗姗来迟但是这套技术也足够硬核党能做出来也很了不起
但是英特尔罪名也很昭彰低效
VMware公司眼疾嘴快把英特尔一顿猛批
模仿骆宾王讨伐武则天出了一篇著名的檄文讨伐英特尔
指责支持虚拟化的扩展指令集低效还没有自己家做的性能好这里指VMware公司的二进制翻译binarytranslation
指责别人趁机夸赞自己没毛病
经此一事也能一窥VMware公司的江湖地位批评别人得自己腰杆子倍儿直
经此一变虚拟化便有了CPU芯片厂商的全火力支持仿佛被按下二倍速播放键
这是虚拟化的短板第一次被拯救
那时候英特尔没有白忙活蘸着唾沫点钞票心里乐开了花支持Xen跟支持Linux的道理一模一样虚拟化带动了生态大家都爱用户黏性
窗外阳光正好又是吃饭时间天上白云飘过人间没有巨变云计算悄然巨变
云计算的第一张门票亚马逊云抢到了云计算的号角一吹响开源迅速占领C位
Xen底气十足首席科学官兼剑桥大学计算机实验室教授IanPratt说微软正处于追赶我们的道路上
此言不虚微软公司的产品确也深受Xen的启发
一时间红帽SunMicrosystemsSuseLinux到处都有Xen的身影
一时间似乎任何新事物都会在Xen萌发
Xen被掌声包围连云巨头都伸出橄榄枝2006年亚马逊云EC2推出第一个采用Xen的实例类型m1small
Xen登上了第一朵云自此成为云计算的生力军
虚拟化技术烈火烹油微软公司好不服气悄悄收购位于美国波士顿的虚拟化厂商Softricity公司赶紧公布了为WindowsServer引进新的虚拟机管理产品的时间表
别催了在买了
后续是微软公司再露土豪本色为了虚拟化连续多次出手多家创业公司
这也从侧面反映了虚拟化这个技术又小众又难又关键连微软公司也哑巴吃黄连有苦说不出
2007年英特尔出了VTx增强了很多功能又反超了VMware公司的二进制翻译技术
VMware公司内心独白批评英特尔草率了
在2009年的时候研究公司Gartner预测三种技术将主导虚拟化VMware公司的ESXServerXen和微软公司的Viridianhypervisor
有些技术预占测卜听一听别当真
正面评论大声说Xen是当时的业界标准之一非常成熟
负面评价小声说Xen的架构非常复杂代码链非常长对内核的改动也比较大
Xen是一个非常好的项目但是确实太复杂全球真正搞懂Xen架构的人不超过50人大部分人停留在仅仅能用这个层次
再者Xen还是传统虚拟化技术
Xen的传统结构决定了它身上的担子特别重要忙于许多事情保护物理硬件保护BIOS虚拟化CPU虚拟化存储虚拟化网络还有诸多管理功能
Xen过于笨重注定退场但Xen的出现为虚拟化打开了开源世界的大门
梦里几十年长风几万里才把虚拟化吹进开源世界
2014年同样是开源的KVM来了
作为Linux的家族成员以组件的形式出现这个轻巧的超级管理程序身姿轻盈席卷世界
这时候VMware公司的日子也不红火了闭源商业软件花钱不说云厂商改动也不方便
不要忘记的是亚马逊云和阿里云的DPU早期架构都能看到Xen与KVM的身影
四
问世间是否此山最高
或者另有高处比天高
手动打节奏嘿哈
开源社区背后的惨绿少年藏身于开源江湖苦练绝技
十多年前的虚拟化技术并不成熟
放眼全世界做虚拟化技术研究的人真心不多
开源社区里最有权力最受人尊敬的人有一个统一的称谓Maintainer软件维护者也是高级别的代码贡献者掌管开源项目的设计规划对全局有深入了解对未来也有独到见解
世界有时候很大有时候很小
安东尼是QEMU的Maintainer
张献涛是KVM跨平台支持以及KVMIA64的作者和Maintainer
QEMU曾是世界上首屈一指的系统仿真器和虚拟器QEMU支持Xen和KVM并广泛部署在大多数云环境中
从Xen到KVM安东尼和张献涛的技术突飞猛进天天打破天花板只要解决性能方面的难题什么姿势都会
要知道那些系统底层要去解决性能方面的故障或者错误Bug都是非常难的伸出手就能扼住整个项目的喉咙让人动弹不得
安东尼和张献涛身上不断出现巧合
张献涛和安东尼在Xen和KVM开源社区都有交集是享誉社区的极客令无数开源玩家高山仰止
经历诸多采访报道他们在做自我介绍时都曾说到一句话我一直做虚拟化方向的工作
同样的话一个用中文讲出来一个用英文表达
只要一有虚拟化安全的新闻热点出现国外技术媒体都以采访到安东尼为荣张献涛则是国内第一批参与做KVM的
巧合的背后往往是必然
2013年安东尼加入亚马逊云
2014年张献涛加入阿里云
昔日在虚拟化开源社区两位最有势力的人
如今在头部云计算厂商主导DPU技术变革
更巧的是一个负责Nitro系统一个负责神龙系统
亚马逊云和阿里云的DPU均汲取了开源虚拟化软件Xen和KVM的精华
云计算带来了虚拟化技术的繁荣实现了技术的跃迁
此时虚拟化的专家从硬件厂商的宝贝变成了云计算厂商大型互联网公司的宝贝
35岁就淘汰之类的话在这些人面前纯当放了一个臭屁
所有人都意识到虚拟化技术值钱了蜂拥而至可惜门槛很高
虚拟化是一门非常难的技术虚拟机是对真实计算环境的抽象很多人被抽象二字难住
操作系统内核已是扫地僧级别的技能了虚拟化则是独孤求败
张献涛说以前我们认为操作系统内核是最难理解的也是最复杂的系统软件业界有不少非常资深的内核kernel工程师转去做虚拟化都理解不了也做不好
为什么呢
因为虚拟化又抽象了一层其难度大大增加要用软件去实现硬件的功能
在云厂商没有虚拟化专家的时代亚马逊云也找英特尔的人去解决问题
十几年前英特尔工程师火线救援云厂商的故事都快被人遗忘了
2010年阿里云准备在5月10日发布产品ECS10
那时有三家企业的工程师挤在阿里云攻坚攻了一个多月有人都要把头急秃了眼看到日子了还有一个坎过不去
大概1000台服务器运行一晚之后总会发生一件奇妙的事情硬盘找不到了
硬盘也很委屈我掉线了
攻坚小组被死死逼到了墙角他们拿出了一个负责任的推断问题要么出在芯片组身上要么出在芯片身上攻坚小组在嘶吼得让英特尔派人来快点
命悬一线之际无论英特尔派谁来都会被人死盯着恨不得用秒表计时
意外的是英特尔的专家到现场后看了一下所有的配置想了一会之后说改个参数就可以了
计时那个人看了下表从拿到阿里云的服务器日志到搞定大约用时3000秒50分钟
这一刻的如释重负让在场的阿里云工程师一辈子也忘不了
快拿几条真丝围巾我们要缠在胳膊上跳广场舞
这事让一个外援在阿里云内部小火了一把
谁知不久之后阿里云的章文嵩问了团队一个问题如果要挖一个虚拟化做得最好的人应该挖谁
章文嵩是何人呢Linux虚拟服务器创始人开源大神曾任阿里云CTO首席科学家
阿里云的工程师们双手不离开键盘头也不用抬张嘴就有了张献涛
无独有偶
有人告诉我二零零几年的时候亚马逊云还没把安东尼搞过去虚拟化的问题也解决不了也得靠英特尔因为虚拟化的大牛工程师亚马逊云也缺
亚马逊云有了安东尼
阿里云有了张献涛
寻隐者不遇那虚拟化的高手到底在哪
云深不知处他们就聚集在IBM英特尔红帽
消息灵通人士透露2008年左右英特尔公司上海办公室里虚拟化团队大概十几号人云计算带动虚拟化技术热门之后全世界都来挖人
自此很多虚拟化的人才就留在了美国直到现在
人争一口气佛受一炷香为什么云厂商会憋着口气一顿猛搞芯片
答案是谁痛苦谁难受谁逼疯谁知道
张献涛恳切的语气令人印象深刻就算不是神龙团队阿里云也会有另一支团队把DPU做出来
众所周知现在云计算厂商的服务器规模有多大当规模扩大用户量增长对DPU的渴求就变得心切
几十万台服务器一天天嗷嗷待哺
在安东尼心里应该也反反复复问过很多遍DPU的本质问题
为了得到更好的产品我们要设计硬件要设计一个专门用于虚拟化的硬件平台不是通用软件不是通用硬件
回望来路已无退路在技术最佳的更迭期DPU出现了用DPU定制化硬件加速成为最正确的方向
五
别怪我没提醒云计算的虚拟化和前几代虚拟化大为不同
前几代产品与DPU隔着一条深不见底的天堑跳过去就是通天大道
问题来了怎么跳
从2012年开始亚马逊云团队尤其是EC2虚拟化就开始思考
那个叫做Hypervisor的超级管理员得胆子再大一点能力再强一点那么问题来了世间能做出比纯软件架构更好的超级管理程序吗
这是我能找到的安东尼在外媒采访中谈到的亚马逊云关于DPU思想萌芽最早的时间点
但那个时候还没有Nitro的影子
后来把NitroSystem曝光于公众面前的是一次知名的收购案
被收购的公司叫做AnnapurnaLabs也就是安娜普尔纳峰实验室公司在以色列和美国都设有研发中心
登山爱好者瞅这个名字很眼熟
巧了喜马拉雅山最高十峰之一安娜普尔纳峰
角峰锐利山体挺拔线条凌厉冰雪覆盖云海猛烈翻滚在向全世界的登山者搔首弄姿你过来呀
又巧了公司两位创始人Billy和Nafea也是登山爱好者以攀登此峰为荣虽未抵达但心已至他们将角峰设计成LOGO印在了封装好的芯片上
登山是个人英雄主义DPU是团队实干集体主义
安娜普尔纳峰实验室对于亚马逊云来说就是上天恩赐的礼物国内云厂商一开始有这个好买卖半夜睡觉都笑醒
收购这件事情光有钞票不行好的收购目标极其罕见
这家登山爱好者公司除了登山还有几个绝活
其一Graviton芯片云厂商第一颗Arm芯片
其二是一种虚拟机抄近路小能手的技术ENA
ENA全称是ElasticNetworkAdapter一种网卡驱动能用于虚拟机和物理机是开源项目发布在GitHub网站上
这种技术讲究的是四两拨千斤使得虚拟机绕过软件内核和用户空间网络处理程序直接操作硬件网卡如此这般提升了网络效率
昔日寂寂无名的ENA成为亚马逊云网络虚拟化的关键技术日后是大名鼎鼎的Nitro的一部分
合作如丝般顺滑那就买过来谁叫那时候世界首富掌管亚马逊公司呢
2015年收购价35亿美元
别看当时花了多少要看日后省了多少这是一场几乎完美的收购每年都为亚马逊节省大把美金
因为DPU的特长之一就是很能打一套降龙十八掌打败虚拟化损耗不在话下
损耗少了当然省钱
安娜普尔纳峰实验室开发的这张卡不仅卸载了VPC网络功能还卸载了EBS存储网络功能
这就是前文提到的任务卸载技术
据网飞公司技术高管BrendanGregg的说法Nitro的性能损耗非常小不到1Nitro的虚拟化性能接近裸设备
亚马逊的文化里有单向门Theonewaydoor和双向门twowaydoor决策的说法这个翻译颇为晦涩
单向门的任务像电影鱿鱼游戏大抵是干活时被人用枪指着脑袋
只要任务失败就嘣一枪惊不惊险刺不刺激
双向门就是这个场景用得不好搬到别的地方说不定还能用上反正不会白忙活KPI保住了万事好商量
DPU是专用的专用意味着拿到别处没用
Nitro系统开发的时候枪和脑袋的距离几毫米
失败和成功的距离一丢丢
研发团队在描述艰难的开发岁月的时候像个文科生一口气用了四个形容词
他们说这次我们做决定有条不紊谨慎缓慢深思熟虑
懂行的心里明白这不是普通的任务其要求已经超出了传统虚拟化技术的能力因为打破传统就是浴火重生
研发团队在技术博客里写下只有创新才行但我们没有急着拍脑袋整个探索的旅程历经五年仔细反复试验每一步都很小心验证我们前进的方向是正确的
喜大普奔的2013年亚马逊云研发团队推出了第一款Nitro卸载卡C3实例类型将网络进程卸载到硬件中
马不停蹄的2014年将EBS存储卸载到硬件中C4实例类型这次研发团队首次与一家名为安娜普尔纳峰实验室的公司合作
Nitro研发团队谈到了研发的时间节点2017年我们卸载了最后的组件包括控制面和剩余的IO我们引入了一个新的管理程序具有C5实例类型的完整Nitro系统
代码长什么样子如今已经记不清了但工程师依然记着当时的心情
这是投入的挥金如土是身心的殚精竭虑是承诺的使命必达是不可思议的时刻当Nitro系统推出时五年辛勤此生难得
Nitro给亚马逊云带来什么
Nitro的迭代推动亚马逊云最核心的EC2产品家族不断往更大更快更安全更稳定更多类型更高性价比方向演进
Nitro系统让亚马逊云有能力提供100Gbps增强型以太网网络的云支持更高吞吐量或受网络限制的工作负载如HPC应用程序
借助Nitro系统将虚拟化功能卸载到专用硬件上将EC2的架构分解为更小的块这些块以多种不同的方式组装能够灵活地设计和快速交付EC2实例并提供越来越多的计算存储内存和网络选项
亚马逊云CTO沃纳威格尔WernerVogels曾经说过在亚马逊云90到95的新项目都是来自于客户给我们的反馈剩下的5也是从客户角度出发所做的创新尝试
而Nitro系统正是这种项目之一它诞生于2013年成熟于2017年到现在还在不断进化中2021年已经迭代到第五代
六
最重要的一点亚马逊云科技的团队看到了阿里云神龙团队也看到了
安东尼看到了张献涛也看到了
把传统的虚拟化技术直接移到云计算缺陷极其明显毕竟不是为了云计算的服务器而生的
把时间花在最值得思考的问题上
2016年左右张献涛博士天天都在思考同一个问题什么样的虚拟化技术才适合云计算
得从根本上解决传统虚拟化应用到数据中心里面存在的缺陷也就是性能资源隔离方面所有的问题
他脑中的神龙系统慢慢清晰
那一年里张献涛博士密集低调往返于北京和杭州两地意在劝说多位大咖级芯片主架构师加入阿里云
有这样一句话很打动人心日后实现的时候更激动人心
外界无法理解互联网公司要做DPU的决心这件事情绝对是前人没有做过的它可以改变云计算里面最核心的技术
神龙芯片给阿里云带来什么技术价值
张献涛认为第一解决CPU和内存完全隔离的问题这里的隔离有两个层面意思一个是安全方面的隔离一个是性能的隔离
第二IO链路上最容易出安全漏洞QEMU这个模拟器是从传统的虚拟化带过来的在神龙芯片第一代的那个时间点上它是完完全全过时了
所谓的过时了包括两点其一代码是开源的人人皆可见其次安全漏洞多常发生一些虚拟机逃逸的情况
在公共云的世界里虚拟机逃逸五个字还没有说出口就有一群人扑上去捂住你的嘴
虚拟机逃逸绝对不允许
DPU解决了性能同时也解决了安全方面的问题
神龙芯片一开始就想好了多张卡解决问题强调多合一多种功能在一张卡上实现复杂度下降稳定性增强
两架马车解决的问题一样实现的思路不同
佛山无影脚神龙无影刀
DPU的一个关键就是从哪里切与切到何处答案充满玄机和禅意
这让人想起庖丁解牛若要回答骨在哪肉在哪骨肉相连又在哪
恐怕要稔知全牛结构全凭手感刀法在脑海里在肌肉里
这还不够难题在于每一家云厂商的软件是不一样的
怎样处理分布式存储和分布式网络的软件接口
哪些应该放在控制路径
哪些放在数据路径
如果不懂虚拟化你就不知道怎么切或者切完后性能也不好
DPU团队表面生气心里憋闷谁出的破题
再或者有的DPU团队还没有看到牛在哪里
DPU这个东西光有硬件思路或光有软件思路一定会出大问题
当故事讲到这里虚拟化的知识就不够用了要细聊张献涛在英特尔的另一段经历
上海虹桥作为著名的交通枢纽周边房价一直看涨
2005年的时候张献涛刚到英特尔实习工资不高钱包不鼓在大虹桥地段找房子住选来选去选了仙霞路附近的茅台路一个叫做天山五村的老式小区
大虹桥的房价逼得张献涛和师兄合租了一个单间逼仄的房间里摆了两张单人床已经够局促了没想到更局促的在后面
一进英特尔张献涛的压力值就爆表了
为什么他发现六年的计算机专业白读了妈耶英特尔大牛们说的话居然听不太懂原因是他们讲的那些东西都牵涉到芯片内部的专业知识
能主宰一个时代的门派半导体产业链的顶端还是有很多秘籍的
脑袋混沌了几天之后张献涛那股子不服输的劲儿上头了
经高人指点他冲到藏经阁就找宝典
英特尔系统编程手册SystemDevelopmentManual是这样一种存在你看第一遍包你根本看不懂
照理说计算机的操作系统是按此写出来的比如英特尔的64位处理器用的是IA64配套的手册有好几卷
手册也诚不我欺卷卷厚如板砖就不信你能读完
晚上师兄睡了张献涛不敢开大灯从枕头下面摸出一样东西手电筒于是咳嗽放屁都在一个被窝里用手电筒的光照着看手册
老旧小区的黑瓦和夜色融在一起楼层里闪烁着零星的光从窗口的方格里冒出来张献涛屋里的光从被子里透出来
开了头才知道痛苦是一层套一层的套娃
每日不辍的翻读还要看操作系统的内核代码这行代码为什么这么写他要到编程手册里找答案这还不够要看Linux和Xen的代码
看不懂怎么办英特尔还有一个师兄帮扶机制类似学霸红领巾不懂问师兄
左手一本软件编程手册右手一本硬件编程手册外加Linux内核代码一行一行去理解
再看不懂怎么办去找美国的工程师请教
张献涛吃一口编程手册蘸几行Linux内核代码成为每日的例行动作
日复一日张献涛对CPU对操作系统的理解加深加深再加深
在英特尔公司张献涛知道了一个冷知识
任何一颗芯片从英特尔公司走出来之前内部员工可能提前三到五年就已经拿到了未出厂的芯片
工程师们要把CPU所有的新功能用软件用起来
说白了到手的芯片还没有正式量产芯片里面会有各种各样的毛病你要去理解问题来自于软件还是硬件
不了解这点你永远不会怀疑CPU会出问题
DPU的技术领袖需要对芯片对芯片组对PCIe总线对操作系统对虚拟化的了解到达一种境界关灯取物如同开灯取物一样自如
看似行云流水的判断是在日复一日年复一年无声无息中形成的就像火山爆发后热风里从早到晚飘落的火山灰把一切技术难点都掩埋
从火山灰中醒来看到一个重塑的新世界
DPU的部署无异于完成了给高速飞驰的列车换防风材料给深海作业的潜艇换防水材料
2017年到2021年亚马逊云和阿里云均已跑步进入了DPU产品迭代良性循环的新世界
2021年的夏天张献涛博士对我说以前没有人相信互联网公司需要芯片技术现在大家都相信了
七
裁判一声长哨男主持人富有磁性的声音播报观众朋友们这里是数据中心赛场IaaS层终场云计算基础设施最后一场比赛
当优秀DPU问世的时候国内云计算厂商在IaaS层这轮的战斗宣告结束了
自研出DPU的云计算厂商说我摊牌了我赢了
哪怕五年前放眼找工作的网站就算云计算厂商放出招芯片专家的岗位谁敢去去干啥再资深的HR一看岗位说明都懵了就没接触过搞芯片的人
软件开发周期何其快硬件开发周期何其慢旁人都说这恋情看上去就不长久
老牌芯片公司一扭头眼角余光里都是质鄙疑视
云厂商只擅长软件如何面对芯片
云厂商面对的场景极其复杂用芯片怎么搞定
谁出的题这么难
问题是复杂中的复杂需求是刚需中的刚需
很抱歉文章科普得迟了DPU是一种云上服务器的专用芯片
这句话有两个关键词云上服务器和专用芯片
先讲云上服务器
云上服务器有些像公共澡堂可以一个人用也可以多人共用麻烦都是一起用带来的
公共澡堂一起用最好有隔板我看你你看我这样不文安明全
可口可乐和百事可乐要在一朵云上还能互相看文件立马就翻脸了肥皂也不捡了
那怎么办
答案是得插DPU而且是每台服务器都得插十万台服务器插十万张DPU杀毒软件是用软件保护安全DPU的作用之一是用硬件保护安全
说到安全硬件比软件更能打这个就不赘述了
再讲专用芯片
提到专用芯片挖矿炒币赚到钱的人兴奋了抢着说我最内行因为不同的加密货币要不同的矿机矿机越对口挖币越赚钱
金钱的铜臭味告诉我们专门的事情让专门的芯片去做
现在还有争议但是未来会看得清楚DPU是云计算的标配
摩尔和登纳德两位老先生无情指出现实之无奈CPU成了最昂贵的打工人
所以DPU作为专用硬件除了安全还要来给CPU减负
几条街之外都能听见DPU的唠叨哎呦CPU我的祖宗快放下您哪敢动这可不能把资源浪费在网络和存储的负载上
CPU则说救救孩子吧我太南了
CPU大声呼救的原因是CPU既要处理大量的上层应用又要维持底层软件的基础设施还要处理各种特殊的IO类协议不堪重负
把负担从CPU上卸载下来DPU将有望成为承接这些负担的代表性芯片
CPU也很高兴DPU的出现你行你上呀
的确有人夸DPU是继CPU和GPU之后的第三颗主力芯片
不要因为鲜花和掌声太多就对DPU的能力有什么误会
CPU稳坐主咖宝座CPU可以当DPU用CPU也可以当GPU用但是反过来不成立
DPU的事情CPU能做但是CPU比DPU昂贵老多了牛刀太贵杀鸡的人自然不舍得
云厂商想实现一起洗澡一起用得靠虚拟化技术虚拟化虽好但是会引发一堆糟心事儿比如性能损耗甚至有人把这种损耗比喻成交税搞不定当然多交税
这种损耗也相当于还没有开始洗澡一半水在水管里就浪费光了肥皂沫都没有来得及冲掉
技术问题越难极客们越兴奋不自觉扬起了手里的小皮鞭
虚拟化是DPU的精髓虚拟化的历史几乎和计算机一样悠久是计算机科学史上最伟大的思想之一造就了伟大的云计算技术和市场
制造假象隐藏细节给上层应用提供一种假象降低上层应用使用下层资源的复杂度
我们天天在用的操作系统也是一种虚拟化的思想是对硬件资源的虚拟化
PC机的虚拟化把计算的核心变成进程把存储介质变成文件系统
云计算的硝烟战火中虚拟化这个喷涂了迷彩伪装的弹药库终于藏不住了
八
说它低调谁料想DPU直接冲破了次元壁在弹幕里打出火钳刘明
有人造出来DPU的时候DPU还没火它们就是阿里云的神龙芯片亚马逊云的NitroSystem
两者都优秀
不仅造出来了还规模化用起来了
不仅规模化了在云的场景中收益还巨大了
阿里云在国内云计算厂商技术团队里是最拔尖的
亚马逊云在技术上从来没让人失望过公关广告投入就另说了
他们造DPU的团队犹如雄师过江天翻地覆慨而慷
自此云厂商分成两列纵队有DPU的没有DPU的
中国男足笑而不语大比分落后说的就是那些没有DPU的云厂商
亚马逊云和阿里云都是革命者且心有灵犀选了相同的技术方向
云灿霞铺同是天涯得意人
亚马逊云的SA是解决方案架构师SolutionsArchitect很能打一言不合就秀show代码简直人人都匹敌创业公司CTO
一位SA私下里告诉我简单来讲DPU就相当于是把虚拟化不同的工作负载下放到不同的卡上
留意下放这动词得体会了一阵子才想通这个词用得妙啊它背后的专业术语是任务卸载
Nitro是一张卡把负载Hypervisor虚拟层存储网络都绑上去也就是把影响虚拟化安全性能稳定性的那些东西都装进板卡里去
它不是一张卡是一套卡每张卡片有不同的目标
NitroSystem之所以称为是一个系统它包含三个独立的部分Nitro卡Nitro安全芯片和Nitro管理程序
以前嘴馋必须自己会烧两个小菜但是现成的API准备好了
不仅会烧菜还会自创新菜
学搞烧创菜新没那么难
因为Nitro系统是一个基础组件盒子有许多不同的组装方式从而使AWS能够灵活设计和快速交付EC2实例类型计算存储内存和网络都可以成为组合的选项
选择困难症患者看到后赶紧喝了一口咖啡压压惊
亚马逊云员工也谈到这种做法能够将云计算微服务架构扩展到硬件方便创新API
2017年的时候爱看热闹的人围观神龙MOC卡但万万没有想到围观的就是DPU
一位阿里云异构计算团队的员工私下里告诉我MOC可以理解为一台小服务器物如其名卡上微系统MicroservicerOnChip但是2021年我们对外口径统一用神龙芯片不叫MOC卡
阿里云员工还说对于神龙芯片的细节公司希望对外少谈有不少人在打听
2021年10月20日神龙推出第四代江湖人称神龙40
比起第三代神龙关键性能指标提升了多少呢
说两个关键的网络关键性能指标提升一倍以上存储关键性能指标提升两倍
神龙40全球首次搭载大规模弹性RDMA高性能网络网络延迟整体大幅降低
RDMA作为网络通信技术不是一个新技术但是阿里云弹性RDMA让RDMA这项技术从高性能计算HPC这个小众领域走向公有云
曾经RDMA大规模组网的能力是整个业界都解决不了的问题
弹性RDMA将对云原生微服务无服务计算应用的性能提升大有帮助甚至是Java中用Netty网络编程框架的应用程序都会从中受益
2021年的秋天张献涛对我说神龙芯片是目前业界最出色的DPU没有之一
DPU要才华有才华要颜值有颜值但是还有两大怪
一大怪亚马逊云和阿里云的DPU不外卖
DPU作为专用芯片不要你懂只要自己懂自己
另一大怪不少云计算厂商一提自研DPU就说拜拜
何况青云和UCloud上市了也都在亏损
更何况造DPU怎么着得拍出三个亿人民币来
九
村口的土墙上刷上了白底红漆的广告语
DPU早拥有早致富
DPU保安全
DPU隔离好
DPU省大钱
一定得用又没钱自研可以用英伟达的DPU呀2020年英伟达69亿美金收购Mellanox剑指DPU
可惜不是量体裁衣用起来不称手很痛苦有专家毫不留情地批评对英伟达现有的feature功能都不满意
树上叶子绿了又黄云计算厂商给博通公司提交的工单在排队
北风吹来枝头秃秃工单仍在排队
阿里云和亚马逊云的DPU都是2017年发布的
事隔多年有没有哪家云厂商跟上了
众人摇头鸦雀无声
亚马逊云和阿里云则可能会说原谅我没忍住笑出了声
非公开产品市场急需消息灵通人士
巧了有一家著名的国内云厂商跑到客户那里宣吹传牛DPU不就是智能网卡嘛我厂2012年就有了比神龙和Nitro快多了
懂行的客户发出灵魂一问瞬间社死现场
你家DPU果真如此那你为什么不用
吹牛牛逼症出现人传人的现象了吗
又巧了笑傲江湖的转身余下的DPU产品要么停留在并不怎么好用的水平上
要么只摸索着做了个原型出来停留在验证概念Proofofconcept的水平上
中国男足笑了笑说抱歉打不开局面
球迷火了花了这么多钱你想说重在参与
太巧了有人告诉亲爱的数据多家公司暗地里派出员工天天找阿里云的人套话这个为啥这样做那个接口为什么这么设计
芯片的水很深总会从供应链拿到一些内部消息还有一家云厂商抄了好几年像素级别地抄也没有抄出个像样的
更糟糕的是规模越做越大快撑不下去了
那些有DPU的云厂商热升级多Happy迭代速度嗖嗖滴
那些没有DPU的云厂商可惨了听说其中一家得一个月重启一次服务器
曾以为重启仅仅是文科生的常用操作别问我怎么知道的
DPU是朋友圈凡尔赛的神器
云厂商发朋友圈祝友商早日建成世界一流DPU
意识到友商已经建成世界一流DPU默默删掉上一条朋友圈
Fungible公司在朋友圈写下2019年我们定义了DPU
楼下评论公司挺值钱软银愿景基金大手笔投了
可惜产品做得一般对云计算的理解不到位无法向其评论竖大拇指
英特尔坐不住了发布了IPU基础设施处理器来表达对DPU这件事情不同的看法
希望朋友圈获得高赞
云厂商楼下依次排队点赞但内心唏嘘不已DPU的世界英特尔也不能一声令下一统江湖了
十
投资DPU至少有两个不投
一不投那些不熟悉云业务的需求的团队
二不投那些对软硬件融合部分理解得比较粗浅的团队
可惜投资DPU这潭水没有水最混只有水更混
DPU身上有两桩著名的冤案在没有DPU之前SmartNIC一种智能网卡先一步问世给网络减负
第一印象最深刻所以有些人至今误认为DPU就是SmartNIC
SmartNIC是对网络进行加速但解决的问题比DPU小多了
这时候ETC自动抬杠机精上线了你就回答我DPU最基本的功能是不是一张网卡
哪怕是人民群众都对新闻里的5G千兆光纤耳熟更别说工业互联网车联网
对网络的要求越来越高了云计算的网络带宽从主流的10Gbps闭着眼睛就朝着100Gbps一路狂奔
可惜的是DPU虽然能给网络帮上忙但不是智能网卡
当一个产品已有翻天覆地的变化我们不妨叫它的新名字
遗憾的是沿着智能网卡的道路一意孤行永远也到达不了DPU的绿洲
不过在2021年智能网卡峰会上大谈特谈DPU也是特定时期的特色
所有误解皆是云烟
智能网卡是不是DPU的必经之路先一步造智能网卡做扎实了再做DPU这种思路您怎么样理解
电子工业出版社出版的软硬件融合超大规模云计算架构创新之路一书的作者原UCloud优刻得云计算厂商芯片及硬件研发负责人黄朝波这样认为
站在功能的层次肯定是从简入繁的过程这个说法是对的
转折之后往往是重点
站在实现的角度这个说法值得商榷智能网卡的路子往往跟着英伟达NVIDIA的做法先NIC再SmartNIC再SOC网络功能的实现是定制ASIC专用集成芯片然而亚马逊云和阿里云没走寻常路从一开始就只有CPU来实现再逐步加入各种加速总之这条DPU的演进之路是从CPU到DPU
正如前文所述亚马逊云和阿里云是相同的技术方向走法却不同
你品你细品英伟达的技术路线是从定制加速到通用这和亚马逊云和阿里云那种从通用到加入定制完全是两个相反的技术演进方向
另一个冤案是按字面意思理解DPU
果然不能仅看表面
DPU的全名叫DataProcessingUnit是数据处理器自赛博开天辟地就有数据
CPU不能处理数据吗GPU不能吗既然不是那凭啥就你叫数据处理
CPU和GPU攥紧了拳头强忍着扇耳光子的冲动嚷嚷今天谁来都不好使
更别说数据安全法砸得门板咚咚直响临时检查听说你们这里有数据还是底层数据
这样下去保安拉起黄色警戒带场面恐怕要失控
冤案掩盖了难点
DPU是软件定义硬件是用硬件适配软件做加速想懂DPU要懂很多东西芯片系统软件计算机体系结构云计算服务虚拟化
两个云厂商的成功故事也淡化了难点
投资人常听人说阿里云和亚马逊云的DPU都造出来了留给创中业国者队的时间不多了
2021年一堆国产DPU公司接二连三拿到融资
双手一伸数一下云豹智能益思芯合肥边缘智芯星云智联青云半导体大禹智芯中科驭数芯启源深存智能等
DPU创业企业存在于北京上海珠海等地
公开工商资料上可查的是互联网大厂也已刷刷出手
腾讯投资云豹智能
美团投资星云智联
字节投资云脉芯联
DPU的利好点很多中国的云计算市场是一个多云的市场比如电信云为代表的行业云出现后金融云物流云等更多的行业云逐步涌现
甚至会有地方云某官僚部门云
头部的云计算厂商不是DPU唯一的客户
再者中国计算机学会专家曾估计用于数据中心的DPU的量将达到和数据中心服务器等量的级别每年以千万级新增算上存量的替代5年总体的需求将突破两亿枚
这一下就超过独立GPU卡的需求量
甚至可以说一台服务器可能没有GPU但不能没有DPU
好比酒店每个房间都要有WIFI否则前台客服电话就会被打爆
目之所及一片形势大好欣浪欣费向金荣钱
实际上小众且专精的关键技术难以一窥其全貌
DPU存在的本质是解决传统虚拟化应用到云计算中的诸多问题的因为早期的虚拟化技术更多用在桌面系统把传统的用在桌面上的虚拟化直接搬来用用起来不顺手
DPU设计的本质和虚拟化紧密相关是为了解决虚拟化带来的糟心事儿性能资源隔离方面等等
简单地说虚拟化主要分成四种CPU虚拟化内存虚拟化网络虚拟化存储虚拟化唯有DPU才是从根本上解决传统虚拟化应用到数据中心里面存在的缺陷的最后一站
英特尔VTx只解决CPU虚拟化和内存的问题网络虚拟化和存储虚拟化的问题是个历史遗留问题一直没有得到有效的解决尤其在云计算场景里功能上能实现但是性能可扩展性隔离性老是处理不好
部分问题解决了其他的怎么办
DPU来解决其他的也就是说DPU是解决虚拟化短板的最后一站
DPU是瞄准了云计算里硬件虚拟化的真实痛点来做的
这么强那DPU到底都牵扯哪些技术
这么说吧因为涉及的技术领域非常之广阿里云弹性计算负责人张献涛说为了神龙芯片我几乎动员了阿里云全线的一流专家
可能在一些造CPU的人的眼里造DPU比较简单我CPU这么复杂都能造玩转DPU算降维打击
可是DPU真的好造吗
如果不懂虚拟化不懂系统软件不懂云计算的场景光懂芯片就想做DPU那么可以送出五个黑体大字无知者无畏
DPU是多流派技术的集大成者有软件有硬件有计算有网络有存储有虚拟化有安全有加速器有驱动有框架有应用精粹交织
也许有一天DPU会号令CPU不是替代
最后让我们为那些真正的技术革命者起身致敬鼓掌欢呼
毕竟一次局部技术革命可比一场球赛更带劲儿
带球队员距球场小禁区还有几步之遥队友在不远处大喊传中传中守门员面色一动似乎在犹豫抓住机会小角度大力抽射破门
还愣着干啥进球了鼓掌啊
完