有多少AI公司，如今困在智算中心？-峰会论坛-媒体界

文 | 新眸，作者｜李小东

直到现在，算力仍然被看作是制约国内AI发展的主要因素。

为了解决这一问题，尤其是ChatGPT出现后，智算中心被视为AI时代如同水和电一般的新基建，在全国各地落地开花。截至今年上半年，全国建成和在建的智算中心超过250个，有媒体报道，仅今年前七个月，就涌现出了140个新的中标项目。

建设这些智算中心背后涉及的公司和机构，除了城投、运营商、金融企业和一些央国企，大型的互联网云计算公司，比如华为云、阿里云、腾讯云，甚至还有些从房地产等行业跨界过来的公司。

但另一组数据同样值得关注：IDC指出，以企业为主要用户的通用算力中心利用率，目前仅为10%-15%；之前有中科院院士公开表示，一些重量级的智算中心，现在大多甚至都处于闲置状态。

从算力不足，到所谓的算力“过剩”，核心问题实际上并没有完全解决。这就意味着，动辄投资数十亿甚至过百亿的大项目，不仅没有发挥出应该有的价值，还成了这场AI热潮中代价最高的新难题。

算力供给风起云涌

不少人对“智算中心”这个词可能还感到陌生。但它其实不算个新词，可以理解为更高阶的“计算中心”。

在计算机科学兴起之初，由于计算设备昂贵且稀缺，许多机构和组织会建立专门的计算中心，来集中提供高性能的计算资源和服务。随着计算机技术的不断进步和普及，从最初的大型机时代到如今的云计算、边缘计算，计算中心的形式和功能也发生了变化。

相较于传统算力中心，智算中心在硬件层面使用GPU替代CPU，GPU并行处理在面对大规模数据集运算时计算效率更高；另一方面，智算中心在软件层面部署了AI框架，能将计算任务调配给不同的计算平台，从而实现最大的效率。

按应用角度来看，传统计算中心更多地以存储数据和提供互联网服务为主；而智算中心是专门给AI应用提供算力和数据存储。

三年前，在推动产业数字化转型的背景下，国内首个智算中心落地武汉，总投资约4.6亿元，由于这类项目的建设过程中，通常会采用预制模块化机房和整柜交付的方式，所以实际建设周期很短，仅仅6个月就能够建成。

当时一期的建设规模为100P FLOPS的AI算力，由数千颗昇腾AI处理器组成，算力峰值性能相当于5万台高性能PC机。这是个怎样的概念呢？以天文探索的场景为例，普通算力需要169天才能找到的特定星星，智算中心只用不到100秒。

新眸统计2021以来建成的智算中心，从以地方主导的项目，如武汉、合肥、南京、京津冀等，到后来以商汤、阿里云、百度云等大厂为主开始投资运营，投入资金、算力规模整体呈现出明显逐阶上涨的趋势。

比如2022年投入运营的“商汤科技人工智能智算中心”，一期投入56亿元，机柜数量5000个，峰值训练算力达到3740P FLOPS；同年后来阿里云的张北智算中心上线，算力规模达到12000P FLOPS，总投入180亿元。

过去的一年里，智算中心以量出圈。

具体表现在，一些四五线城市的智算中心拔地而起，比如甘肃庆阳、安徽宿州、山东枣庄等。相比大城市，这些城市土地资源丰富且价格低廉，渴望经济转型，并带动周边产业发展，因此对智算中心给予如税收优惠和资金补贴等支持，并且审批流程更简化，建设进度更快。

另一方面，智算中心需要实现算力的标准化、服务化，达到随用随取，类似于传统公有云服务。这意味着智算中心不仅仅是提供硬件资源，而是要转型为提供算力服务，因此很多企业，甚至是传统企业都涌入了跨界做算力租赁的赛道。

同花顺数据显示，截至目前，算力租赁概念股已经多达108家。例如，主营彩票印刷业务的鸿博股份，是A股首家宣布跨界算力的上市公司；莲花健康主业是做味精的，也采购了大量英伟达GPU开展算力租赁业务。

算力租赁，一个新的风口赛道

简单来说，算力租赁就是当你在需要强大算力来完成某个项目时，不去自己购买昂贵的计算设备，而是去租用。服务商根据需求，搭建好所需的计算环境或系统，然后通过签订合同的方式，把这套计算能力租给你用。

客户付的是租金，用完之后这套设备的所有权还是归服务提供方，也不需要自己去维护或者买下这些设备。通常情况下，算力租赁有四种收费方式，按小时、按算力规模、按使用量和套餐计费。

具体来看，一般小型科创公司在做一些科研项目、短期的数据处理任务等，对算力的使用时间不确定，按小时计费就可以灵活控制成本。比如SFCompute公司提供按小时计费的服务，用户可以根据自己的需求租用H100 GPU，价格还很便宜。

按算力规模计费，通常涉及到服务器性能、GPU数量等方面的评估，性能越好、效率越高，服务租金也更高。其次还有按照数据处理量、网络流量的使用情况来计费的方式。针对一些大型企业或有特殊需求的客户，提供商可以根据客户的具体要求定制个性化的套餐。

为什么要租？

众所周知，这两年大模型训练、微调、推理需求急剧增加，但关键在于，AI应用在不同的开发阶段，对算力的需求也不同。在开发周期中，需要大量的训练算力；当模型开发完成上线后，就不再需要训练算力而是推理算力。

当下算力租赁下的迫切需求，更多是源于模型训练。至于需要多少，参考GPT-4训练过程中A100卡数量达到万张量级。考虑到服务器采购与租金成本，以及对算力的弹性需求，调试、维护成本，工程师研发时间成本，算力租赁成为大多数大模型厂商的最佳选择。

然而，在目前的算力租赁市场，竞争格局呈现户参与者众多，但格局分散的特点。传统的云服务提供商，高端算力资源相对充足，但对外租赁的比例较少。具备IDC建设运营能力的企业，比如浪潮信息、中科曙光，以及跨行过来做算力的企业也越来越多。

另一个问题，国内在近几年的算力投入下，与国外的差距不断缩小，甚至单从规模上看，已经到了全球顶尖的水准，尤其是智算中心的储备，也远非供不应求的状态。

那么，在这种情况下，为什么还会有那么多公司争相做租赁生意？

事实上，在供需方面，国内的算力规模虽然增长，但面向AI、高性能计算的算力缺口一直存在。根据赛迪顾问的数据，2023年国内智能算力需求达123.6EFLOPS，但供给仅有57.9EFLOPS，不到一半。

另一方面，算力需求未被云计算大厂承接住。据业内人士指出，主要是因为大模型训练需高性能GPU集群，而大厂提供的多是单节点服务，缺乏节点间超高带宽互联基础设施，无法满足需求。

再加上建设新集群成本高，现有基础设施又无法重复利用，并且大厂更关注在单节点可用性与可靠性，在高性能集群业务上并无优势，要不然也不会有其他算力租赁公司的发展机会。

据东吴证券研报，算力租赁公司的毛利率约为40%左右，净利率约为20%左右，最大的一个门槛就是资金——用来硬件采购、场地租赁、运维团队组建；但技术门槛并不高，企业可以通过与技术供应商合作、引进专业人才等方式快速搭建和运营大规模的算力中心。

对于一些主业经营承压、急于寻找新盈利增长点的企业来说，这个新赛道的吸引力巨大。

智算中心的背后逻辑

2023年，莲花控股成立莲花紫星开展算力租赁业务。公告显示，算力项目预计总投入约 2.9 亿元。今年前8个月，莲花紫星营业收入超过3515万元，但净利润为-398.13万元。整体仍处于亏损，主要原因是设备的折旧及利息费用影响金额较大，人员成本支出占比较高，尚未发挥出规模效应。

短时间内赚不到钱，并不是说这不是一门好生意。通过梳理开展算力租赁的A股公司的财务数据发现，大部分的确都处在增收不增利的状态，极少数实现盈利，但这些与“算力”概念相关的企业，最直接的收获，可能就是短期内几乎都出现过明显上涨的股价。

如果要问算力租赁还有哪些不确定性，市场需求、政策变化、技术水平，以及交付和供应链、国产替代等等，都是重要的影响因素。不过对于当下涉足这个赛道的企业来说，更关键的问题是真正的know how。

智算中心并非买了一堆GPU后就能靠租售躺赚。单就硬件部署，要解决的就包括：高性能的AI芯片、异构架构设计、高速低延迟的网络、存储系统、安全配置、监控管理、液冷装置等等复杂步骤。

除此以外，训练算力的租赁对象主要是大模型公司，那么租赁公司，尤其是跨行的企业，怎么获取这些客户资源，获取稳定的客户支持？这些问题在实操的过程中更难解决。截至目前，已经陆续有几家上市公司放弃了算力租赁业务。

那回到开头的话题，智算中心的ROI过低，什么原因？

除了供给与需求的不匹配，地区间的经济发展水平和产业结构差异，比如东部地区算力需求旺盛而供给相对不足之外，最早撇下的泡沫，是那些在缺乏充分市场调研的情况下，盲目投入智算中心建设的公司。

其次，结合算力租赁市场当下的窘境，智算中心的高效运行不仅依赖于高性能的硬件，还需要软件层面的优化和协调。智算不仅仅是卡的问题，而是一个软硬件协调的系统。当软件能力不够时，卡自身的发挥也会受限，导致用卡效率不高。

智算中心不景气，直接影响了算力租赁市场的低迷，反过来，算力资源无法得到有效利用，一些企业因缺乏应用场景而闲置算力资源，造成浪费，如此循环。

值得注意的是，囿于国内外技术差距以及芯片卡脖子，国产替代越发的被反复提及。但在这个过程中，最难解决的是应用生态的问题。

打个比方，如果国内芯片厂商在技术上采取封闭式模式，厂商通过高价设备销售、辅助运营服务等方式实现了商业利益的最大化，虽然能够集中力量办大事，实现端到端的控制。

但封闭性也会导致可用的开源软件、商用软件极少，用户自有软件的迁移适配成本极高，一些用户的软件无法适配，依此建立的智算中心只能处于闲置状态。