算力需求井喷，AI服务器能否一骑绝尘？

发布时间：2020-02-19 阅读量：1153 来源: 我爱方案网作者:

新冠肺炎疫情对人们的工作、消费方式均产生巨大影响，但同时提振在线教育、远程办公、远程政务、在线游戏、生鲜采购等一系列需求。

未来将有更多行业向云上迁移，加速各行业线上化、云化过程，带动服务器市场增长。受下游需求变化影响，服务器市场正在发生的结构性变化不容忽视，例如产品高端化、AI化成为确定性的趋势。

AI服务器成为服务器厂商竞争焦点

回顾2019年服务器市场，全球范围内表现欠佳。不过，AI的兴起给整个行业带来了生命力，AI服务器将成为服务器厂商未来的竞争点。

对算力的渴求+海量数据爆发成为当前AI服务器崛起的主要驱动因素。一方面，大多数 AI 算法需要大量的数据和算力来完成任务，依靠云服务来执行计算；另一方面，在提供智能云体验上，由 AI 驱动的解决方案将决定企业能否在 AI 时代快速占领制高点。

目前，在中国的AI服务器市场，浪潮的市场占有率最大，占据约50.2%的市场份额，华为位居第二，约占15.7%，曙光以7.8%位居第三（数据来源于IDC 2019H1 PRC AI Infrastructure Tracker）。包括浪潮、华为、曙光、新华三、戴尔等在内的主流OEM、ODM厂商均有不止一款的AI服务器。

浪潮目前推出的AI服务器主要包括AGX-5、AGX-2、NF5488M5、NF5468M5、NF5280M5以及NF5280M5-V。其中，AGX-5单机可以配置16颗NVIDIA Tesla V100 Tensor Core 32GB GPUs，拥有10240个张量计算核心，计算性能达每秒2千万亿次。去年，浪潮还推出了浪潮元脑一体化解决方案。既包括了AI计算能力，也包括了AI PaaS平台，同时包括了浪潮面向人工智能所推出的AutoML Suite套件。

华为自2018年10月发布AI战略以来，于去年8月发布其算力最强的AI处理器昇腾910和全场景AI计算框架MindSpore，完成全栈全场景AI解决方案的构建。在典型的ResNet50 网络的训练中，昇腾910与MindSpore配合，与现有主流训练单卡配合TensorFlow相比，显示出接近2倍的性能提升。

AI服务器的竞争，已经不只是简单的产品升级迭代，而是上升到了整体的布局，是包括芯片、云、数据处理能力、框架、算法开发基础、部署环境等在内的整体能力。

随着数据的爆炸增长与深度神经网络日趋复杂，单机或小型服务器已经无法满足算力需求，未来将有大量的人工智能应用和服务被放在云端。AI算力需求逐步迈入高峰期，更高性能的AI服务器将在线下场景落地。

互联网仍是AI服务器主战场

虽然AI落地被认为是“架起梯子远远够不到月亮”阶段，但在某些细分领域已经开始从“AI产业化”向“产业AI化”的逐步转变。勇于尝试新技术的互联网公司仍是AI服务器的主战场。

新型冠状病毒疫情爆发后，阿里巴巴、腾讯、百度等公司，通过开放核心算法和计算能力的方式，与医学研究机构共同抗击疫情，AI算力对于与疫情赛跑的分分秒秒中都起到了关键作用，助力病毒基因测序、疫苗及药物研发、蛋白筛选等药物研发攻关。

受疫情影响，在线办公、教育、娱乐等应用需求加速增长，互联网巨头和细分领域头部企业，开始对服务器进行扩容，数据中心和服务器市场有望迎来扩容机遇。

企业	服务器扩容情况
阿里巴巴	2月3日扩容1万台，2月4日扩容1万台
腾讯	1月29日至2月6日，8天总扩容超过10万台云服务器
金山办公	1月25日前后，WPS表单服务器扩容5倍；2月3日后，金山文档远程会议服务器扩了3倍，金山文档在线office扩了1倍。
叮当快药	2月12日后，服务器扩容30倍
<电子发烧友>整理于2020.2.18

根据IDC《2019-2020中国AI计算力发展评估报告》显示，互联网是投资AI算力最多的行业，占据了中国62.4%的人工智能算力投资市场份额。而算力这一AI基础设施，主要由AI芯片和AI服务器玩家提供，这一市场正在高速增长。

不过，在互联网行业之外，传统行业和AI的结合也越来越紧密，其中服务行业正在加大对AI技术的投入，政府、教育、金融等传统行业也进一步加深与AI应用的融合。

AI服务器需要多样性算力

以AI带来的多种数据类型和场景为代表，驱使计算架构优化、多种计算架构并存，已经成为实现最优性能计算的必然选择。

AI爆发前，算力主要来源于x86服务器。而随着单颗CPU性能提升遭遇瓶颈，传统服务器难以满足并行算力需求，以GPU为主的AI服务器开始了高速增长。擅长多线程并行的GPU在处理海量数据上有着先天优势，通过CPU+GPU异构组成的AI服务器成为当下主流，是服务器厂商纷纷发力的产品。

根据IDC对中国GPU服务器出货量的预测，2018-2023年，整体市场年复合增长率（CAGR）为27.1%，到2023年市场规模将达到43.2亿美金（约合人民币298亿元）。

在刚刚过去的2019年，由于互联网行业采购的缩减以及中美贸易战的不断升级，给中国GPU服务器市场带来了一定程度上的影响，使其市场增速稍有放缓，但依然高于中国x86服务器市场。

从产品角度看，8卡GPU服务器和英伟达的V100加速卡成为去年上半年的采购热点，均占据30%以上的份额。

值得一提的是，在GPU称霸的AI服务器领域，FPGA正以“加速”之形象变得深入人心。微软是全球首个真正意义上在云数据中心中大规模成功部署FPGA的公司，他们牢牢抓住FPGA灵活性这一最重要的特点，通过使用FPGA，一方面可以尽早开展定制化计算与定制芯片的研究与设计，另一方面，可以保持与现有架构相互兼容的同构性。目前，包括浪潮、华为、戴尔、百度等均已宣布在其服务器中部署FPGA加速卡。

在异构方式上，除了CPU+GPU、CPU+FPGA，还有CPU+TPU、CPU+ASIC或CPU+多种加速卡等形式，随着场景应用的逐渐丰富，AI服务器架构应了一句话“合适的才是最好的”，步入多样化的算力需求时代。

算力缺口持续放大，巨头、创企混战

在笔者早先与雪湖科技联合创始人兼COO王韵的交流中，他对于AI三要素：算法、算力、数据，有个形象的比喻：算法是菜谱，算力是锅，数据是食材。在AI发展初期，为什么算法公司占据明显优势？因为要做出一道大餐，必须有好的菜谱。但是，当大家慢慢掌握了烧菜方法后，菜谱就变得不像最初那么重要了，反而是，一口好锅和好的食材非常关键。这就是AI正在经历的从算法霸权，向算力霸权和数据霸权的演进。

随着AI、5G、无人驾驶等确定性趋势技术的发展，算力缺口仍在不断放大。我们所处的世界，计算的边界也在不断延伸，从数据中心到边缘再到终端，智能计算将无所不及。AI终将成为一种基础能力，连接芯片提供商、应用提供商、服务提供商和算法提供商。算力也将作为一切人工智能产业发展的核心，从早期的集中在训练场景，发展到在推理场景的大规模应用阶段。

对于服务器市场正在发生的变化，巨头们早已开始了改变。

英特尔不断提升其数据中心的异构计算的能力，并在跨多架构的开发过程中进行统一和简化。刚刚斥资约20亿美元收购的以色列人工智能公司Habana Labs，有助于提振英特尔面向数据中心的AI服务。Habana Labs的AI训练处理器Gaudi，与使用同等数量GPU构建的系统相比，基于Gaudi的大节点训练系统的吞吐量预计将增加4倍。Gaudi训练产品和Goya推理产品能够提供丰富的、易于编程的开发环境，帮助客户部署差异化解决方案。

英伟达显然也没有掉以轻心，虽然在其刚刚宣布的2020财年第四季度及全年的财务报告中显示，数据中心收入达到创纪录的29.8亿美元，比上年增长2％。对于未来，英伟达方面表示，“我们看到了一个新的计算时代的开始。固定功能加速器根本不是正确的答案。我们认为未来需要加速的计算平台，并且软件丰富性至关重要，数据中心可以由软件定义。”

国内创企也在崛起的AI服务器市场中激流勇进。不过，由于云端训练芯片的研发投入大、流片风险高，仅有为数不多的公司能够进入该领域。目前主要有海思、阿里、依图、寒武纪、燧原等。

应对未来数据量的爆炸性增长，硬件本身的能力有一定的局限性，软硬协同的平台组合，才能做到前端承接多源数据、后端支撑智能应用。算力、算法和数据的协同也至关重要，算力和算法的提升，数据的开放和共享，将共同推动AI向产品乃至行业智能化的普及。