显卡的作用是把cpu要处理的图形信息存储在(只有阿里腾讯才懂的芯片秘密)

作者宇多田

虎嗅科技集团出品

掩护视觉中国

就在昨天,中国的内存制造商长鑫仓库(即睿力整合),其悄然改变的股东信息引起了一些媒体和行业骚动。

因为19名新股东”马克斯·巴巴”“腾讯”这两个名字非常引人注目。

名片上的照片

合肥长鑫是中国大陆唯一一家成立于2016年、注册资本为485.7亿元人民币的“初创公司”德拉姆拥有独立内存生产能力的芯片工厂承受着许多期望。不出所料,作为服务器的“三大物理硬件”之一,内存芯片类型对云计算巨头来说自然是非常重要的。

易失性存储器dram和NAND闪存是存储行业最流行的芯片类型,这是一个全球规模约900亿美元的市场(数据来自trendforce)。虽然这个数字看起来并不庞大,但几乎被忽略了三星海力士以及美光三巨头被瓜分了。

从云计算厂商稀缺的角度来看,提高DRAM采购稳定性的原因在于DRAM服务器等厂商的供需稀缺。

作为超大数据中心的运营商,云制造商是DRAM芯片的巨大消费者。例如,亚马逊2019年,由于三星DRAM产品的设计存在潜在缺陷,订单被取消,这对后者本季度的营业利润产生了重大影响。

另一方面,权威的市场分析机构digitime整合了行业来源,并认为2022年云服务器数据中心应用将成为DRAM芯片市场的主要增长引擎,恢复大批量出货的势头,整体市场需求有望增长15-20%;此外,美光的数据业务在2022年第一季度增长了70%,主要来自DRAM和SSD产品。

虎嗅告诉数据中心,预计2022年第二季度的需求将更加明显。

云巨头的硬件控制和野心

毫无疑问,在另一边中央处理器、像GPU和各种加速器,存储芯片服务器架构创新和性能的颠覆也有着极其重要的影响。

对于云供应商来说,大量的并行处理和神经网络规模的巨大增长,必须要求处理器更快地从内存中获取数据(这在本文中有介绍)《干掉英伟达?》这在本书中被多次提到。但宁畅的信息技术专家告诉虎嗅,目前的计算机是冯诺依曼在体系结构中,计算数据必须在计算前放置在DRAM中。因此,程序的大小决定了内存的大小。

“因此,单个程序和数据占用的内存空间不断增加,导致内存容量不断扩大。为了保持性能,内存速率需要与计算核的数量同步增加。但这几乎是不可能的。”

去年,IEEE研究人员、3D存储芯片专家金正浩(jounghoKim)也高呼,内存和处理器之间的性能差距比以往任何时候都大。冯诺依曼建筑现在应该被称为“冯诺依曼瓶颈”。

因此,近年来出现了更多的内存技术创新。”如何减少芯片之间的数据移动”展开。

停留阿里云开发者社区和数据专家已经详细推广了HBM(高带宽内存)和HBC(混合存储立方体)等新技术服务器内存。这条技术路线的想法相对直接且易于理解--让内存尽可能靠近CPU或GPU

(提醒后,这里需要强调的是:这是指HBM技术在内存产品中的创新。AMD等企业早在2016年就提出了HBM的创新)

更具体地说,它是将处理器和内存堆叠成一个3D矩阵,然后将其刻在服务器主板上

它最大的优势,理论上,也就是说,它可以在非常低的频率和能耗下带来大带宽

这是一种技术路径响应在产品中事实上,这是三星在2021年8月发布的内存处理芯片HBM2-PIM。三星的技术人员使用一条称为硅穿孔(TSV)的互连线垂直连接DRAM,并将其放在逻辑芯片上(下图)。

一般来说,让一堆DRAM围绕在计算单元周围,一起工作,完成与人工智能任务相关的神经网络计算。

三维叠层pimhbm

这一技术在2021引起了仓储业的轰动,但仍处于试验阶段。然而,头部存储企业已经听到了风声。例如,美光悄悄地提出了3DDRAM技术的专利申请半导体材料巨人应用材料公司还迅速发布了一套3DDRAM材料工程方案。

正如EEtimes所说,这可能需要几年时间,但DRAM可能会追随NAND的脚步,向3D方向发展。

阿里不久前,一款基于DRAM的3D堆叠存储计算集成芯片发布,相关论文也被收录在ISSCC2022中。当然,这是一项研究,尚未投入生产,但这也是一个非常重要的信号。

显然,一直非常重视服务器基础设施的云巨头是肉眼可见的,逐渐“吞噬”服务器体系结构中的每个核心关键点——

具有亚马逊AWS例如,在2015年收购以色列Annapurnapeaklaboratory之后,自2017年以来,DPU芯片nitro、arm服务器CPUgraviton、graviton2和graviton3、机器学习培训加速器training和机器学习推理加速器NicholasTse相继推出。

阿里和其他中国云巨人在芯片研究和开发方面受到启发的时代恰好是AWS释放硝基DPU前后。现在,它已经基本完成了从服务器CPU到人工智能加速器的“同类设备”。

基本上很清楚,自从亚马逊开创,不断地纵向一体化从下到上,云计算已经掌握了自己手中服务器架构的自我开发能力。现在,顶级云制造商之间已经达成共识。

“阿里有远大的抱负或勇气。”

一位不具名的服务器专家告诉虎嗅,阿里的基础设施业务集团AIs在服务器架构的自我研究和创新方面进展非常快,但由于其水平相对较低,外界对其了解不多,知道有些人甚至直接将其归类为“操作和维护”。

由于这个企业集团相当于整个阿里云软硬件基础设施的“管家”,各种技术专家聚集在一起,必须在服务器、内核、容器中JVM、它在调度、数据库、存储和中间件等多个数据中心“节点”上进行迭代和创新。当然,它在采购和销售方面也有KPI指标。

“他们对存储有一些想法。基本上有两种方法。当然,第一种是购买现成的三星JetLiMeguiar,另一种是购买Marx去年的‘粒子’(存储芯片)自行制造DIMM。”他说,人工智能在实验室水平上应该没有问题,大规模生产可能具有挑战性。

“更重要的是,这取决于他们的整合理念--加速卡(人工智能、存储)、网络(DPU/smartnic)。奇普是平头兄弟或其他部门,但需求方是AIS、Marxcloud和蚂蚁金融服务。需求方也非常重要,决定使用什么、如何使用以及如何使用它来最大限度地提高效率。"

他提醒我们要注意英特尔idm20的开放战略,特别是不久前的“授权x86对外的战略和猜测”——“我认为很多人应该很快采取行动”。

显卡的作用

此外,根据虎嗅过去两年从多方了解到的信息,尽管在云基础设施的硬件创新和战略速度方面存在一些争议,但阿里确实赢得了中国其他云制造商的支持。

显然,无论是为了确保供应链的稳定还是技术创新,关注和投资国内仓储市场都是非常必要的。

只有云制造商才能推动存储芯片的进步

当我们在2020年写台积电的时候,我们有曾提,如果我们说的话苹果高通、英伟达高端产品的成功得益于台积电的先进技术工艺技术一定是最大的帮助之一;台积电之所以总能占据最低流程的高地,是因为前者也必须做出贡献--

最好的下游技术和产品为您提供“导航”和试错,从而与竞争对手形成美好的时差。

云计算和半导体之间的关系也是如此。

例如谷歌TPU推出时,受到了普遍赞誉,并让GPU制造商提高了警惕。最大的原因是,作为数千块芯片并行计算的用户,云制造商对芯片的问题太清楚了。毕竟,样本是丰富的。

几年前,多伦多大学曾经做过一个关于“DRAM致命缺陷”的重要话题。

经过多次努力,他们终于从阿贡和其他大型国家实验室、谷歌和Facebook中国的大型数据中心已经获得了大量有价值的样本。令他们震惊的是,有关DRAM的错误很常见,一些数据中心存在重大问题停工期事故起因于德拉姆的精神错乱。

以谷歌为例,他们发现12%到45%的谷歌机器每年至少遇到一次DRAM错误,0.2%到4%的机器因为无法纠正DRAM错误而意外关闭。

过去,无论是在大型数据中心还是个人电脑中,业界将把DRAM的错误更多地归咎于“软问题”——根据IEEE杂志的解释,当物理设备完全正常工作时,它将受到某种短期干扰(如宇宙射线产生的粒子),这将破坏存储的数据。

但这个想法之前几乎没有足够的实验支持,这在一定程度上是缺乏样本的。是的,企业数据中心不愿透露,而且实验室的样本量很小。事实上,经过他们的调查,结果令人震惊。事实上,大多数错误都来自“严重错误”。

是的,这是DRAM芯片本身的问题。

调查人员访问了一些谷歌数据中心,发现,是少数机器造成了大部分错误。也就是说,错误往往会一次又一次地重复显示在同一内存模块中来吧

让我们想象一下,如果是软错误,例如导致DRAM无序的射线粒子,被击中的概率是相同的。这意味着之前的断言是错误的。

IEEE给出的最终解决方案有利于云计算制造商。例如,使用计算机操作系统删除和预测内存错误地址或内存页。

但从硬件的角度来看,云制造商只能找到这些实验室和消费者产品测试无法发现的硬件错误对半导体制造商改进和升级下一代硬件非常有帮助。

这也可能是云制造商被戏称为“CPU或内存公司”的最大原因之一。

然而,无论如何,硬件需求巨大的云制造商仍然需要在设计、制造和大规模生产等综合困难方面严重依赖半导体制造商。云制造商的自底创新以及与半导体巨头的密切合作,可能会对存储和其他方面的自我研究能力产生一些实质性的帮助,这些方面在中国已经有三到五年没有增长了。

我是傅波,虎嗅科技集团的首席作者,主要研究半导体和自动驾驶。(微信:fudabo001,添加微信时请注意身份)

正在改变并想要改变世界的人都在虎嗅应用程序中

您可以还会对下面的文章感兴趣

最新评论

  1. 余生愛浪
    余生愛浪
    发布于:2022-04-27 16:40:53 回复TA
    量不断扩大。为了保持性能,内存速率需要与计算核的数量同步增加。但这几乎是不可能的。”去年,IEEE研究人员、3D存储芯片专家金正浩(jounghoKim)也高呼,内存和处理器之间的性能差距比以往任何时候都大。冯诺依曼建筑现在应该被称为“冯诺依曼瓶颈”。因此,近年来出现了更多的内存技术创新
  1. 山村傻根
    山村傻根
    发布于:2022-04-27 17:00:42 回复TA
    在潜在缺陷,订单被取消,这对后者本季度的营业利润产生了重大影响。另一方面,权威的市场分析机构digitime整合了行业来源,并认为2022年云服务器数据中心应用将成为DRAM芯片市场的主要增长引擎,恢复大批量出货的
  1. 深海不及人心
    深海不及人心
    发布于:2022-04-27 17:43:52 回复TA
    是如此。例如谷歌TPU推出时,受到了普遍赞誉,并让GPU制造商提高了警惕。最大的原因是,作为数千块芯片并行计算的用户,云制造商对芯片的问题太清楚了。毕竟,样本是丰富的。几年前,多伦
  1. 禄宽美娥
    禄宽美娥
    发布于:2022-04-27 15:51:39 回复TA
    睡觉是为了踏实地工作,工作是为了踏实睡觉。
  1. 包竹可辉
    包竹可辉
    发布于:2022-04-27 15:51:39 回复TA
    你又不是人民币,怎样能让人人喜欢你?

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

使用微信扫描二维码后

点击右上角发送给好友