新闻

开云体育惩处算力不及的办法即是耐性恭候-开云(中国)Kaiyun·官方网站

发布日期:2025-05-27 04:17    点击次数:83

开云体育惩处算力不及的办法即是耐性恭候-开云(中国)Kaiyun·官方网站

1958年开云体育,德州仪器的杰克.基尔比(Jack Kilby)狡计出了带有单个晶体管的硅芯片。1965年,仙童半导体依然掌合手了如何制造一块领有50个晶体管的硅片。正如仙童半导体的纠合创举东谈主戈登.摩尔(Gordon Moore)当年不雅察到的那样,一块硅片上可容纳的晶体管数目着实每年翻一番。

2023年,发布了iPhone 15 Pro,由A17仿生芯片驱动,这款芯片领有190亿个晶体管。56年来,晶体管的密度加多了34倍。这种指数级的向上,被不祥地称为摩尔定律,一直是有计划机翻新的引擎之一。跟着晶体管变得越来越小、越来越低廉以及速率越来越快,今天达成了手合手“超等有计划机”的遗址。但东谈主工智能期间需要处理的数据数目之多,依然将摩尔定律推向了极限。

着实总计当代东谈主工智能中的神经采集王人需要经由查验,以细则正确的权重(权重用来计算输入信号关于神经元的影响进程,即不同输入的弥留性权重),从而为其数十亿,有时以致数万亿的里面相接赋予正确的权重。这些权重以矩阵的体式存储,而查验模子则需要使用数学方法对这些矩阵进行操作。

单层神经采集的骨子是矩阵相乘,两个按行和列罗列的数字矩阵聚拢被用来生成第三个这样的聚拢,第三个聚拢中的每个数字王人是通过将第一个聚拢中某一排的所迥殊字与第二个聚拢中某一列的所迥殊字相乘,然后相加而得到的。如若矩阵很大,有几千或几万行几万列,而况需要跟着查验的进行反复相乘,那么单个数字相乘和相加的次数就会变得相称多,这即是东谈主工智能的“念念考花式”,通过对输入数据的处理得出谜底。

但是,神经采集的查验并不是唯独一种需要高效处理矩阵乘法运算的技艺。游戏产业高质料的视觉呈现雷同需要这一技艺,在25年前,这是一个雄壮的商场。为了知足这一需求,英伟达率先狡计了一种新式芯片,即图形处理器(GPU),在这种芯片上吩咐并相接晶体管,使其能够同期进行多量矩阵乘法运算。与大多数中央处理器(CPU)比拟,GPU不错更多量量地处理数据,而况能耗更低。

2012年,查验AlexNet(始创 “深度学习 ”期间的模子)需要为6000万个里面相接分派权重。这需要4.7x10^17次浮点运算(flop,算力最基本的计量单元),每次浮点运算约莫十分于两个数字的相加或相乘。此前,这样多的有计划量是不能能完成的,但那时两个GPU就完成了AlexNet系统的查验。比拟之下,如若使用那时起先进的CPU仍需要耗损多量的期间和算力。

乔治城大学安全与新兴技艺中心最近发布的一份证明称,在用于查验模子时,GPU的资本效益比CPU超越10-100 倍,速率栽植1000倍。恰是因为有了GPU,深度学习才得以茂密发展。不外,大型说话模子(LLM)进一步鼓吹了对有计划的需求。

「Scaling Laws」突破「Moore's Law」

2018年,OpenAI的筹商东谈主员亚历克.拉德福德(Alec Radford)欺骗谷歌筹商东谈主员在“Attention Is All You Need”中提议的Transformers(选拔提防力机制的深度学习模子),开发了一种生成式预查验变换器,简称GPT。他和共事们发现,通过加多查验数据或算力,不错提魁伟模子的生成本事,这个定律被称为“Scaling Laws”。

由于行业笃信Scaling Laws定律,大说话模子的查验限制越来越大。据筹商机构Epoch ai臆测,2022年查验GPT-4 需要2x10^25个 flop,是十年前查验AlexNet所用算力的4000万倍,花消约1亿好意思元。Gemini-Ultra是谷歌在2024年发布的大的模子,其资本是GPT-4的两倍,Epoch ai臆测它可能需要5x10^25个flop。这些总额大得难以置信,堪比可不雅测六合中总计星系的恒星总额,或太平洋中的水点书册。

往日,惩处算力不及的办法即是耐性恭候,因为摩尔定律还在奏效,只需要等上一段期间,新一代的芯片就会集成更多更快的晶体管。但摩尔定律依然冷静失效,因为咫尺单个晶体管的宽度唯有几十纳米(十亿分之一米),要想达成性能的如期跃升已变得相称繁难。芯片制造商仍在起劲将晶体管作念得更小,以致将它们垂直堆叠起来,以便在芯片上挤出更多的晶体管。但是,性能稳步栽植而功耗下跌的期间依然由去。

跟着摩尔定律放缓,想要建立更大的模子,谜底不是分娩更快的芯片,而是打造更大的芯片集群。OpenAI里面袒露,GPT-4是在25000个英伟达的A100上查验的,这些GPU集群在一谈,以减少在芯片间移动数据时形成的期间和能量亏欠。

Alphabet、亚马逊、Meta和微软策动在2024年投资2000亿好意思元用于东谈主工智能有计划的范围,比前年增长45%,其中大部分将用于打造大限制的芯片集群。据报谈,微软和OpenAI肃肃营在威斯康星州建立一个价值1000亿好意思元的集群,名为 “星际之门”(Stargate)。硅谷的一些东谈主则以为,十年内将出现一个价值1万亿好意思元的集群。这种超大限制基础智商成立需要消耗多量动力,本年3月,亚马逊在一座核电站左近购买了一个数据中心,该核电站可为其提供千兆瓦的电力。

对东谈主工智能范围的投资并不全是在GPU过火功耗上,因为模子一朝查验完成,就必须插足使用。使用东谈主工智能系统所需要消耗的算力,时常约为查验所需算力的平日根,这样的算力需求仍然很大。举例,GPT-3需要3x10^23flop的算力来查验,则推理需要3x10^11flop算力。FPGA和ASIC芯片是专为推理量身定制的,在运转东谈主工智能模子方面,比使用GPU更高效。

不外,在这股高潮中领略最佳的如故英伟达。英伟达的主导地位不仅来自其在GPU制造方面积聚的技艺和插足多量的资金(黄仁勋称,Blackwell的开发资本高达100亿好意思元)。此外,英伟达还领有效于芯片编程的软件框架,即近乎已成为行业设施的CUDA。

竞争敌手王人在寻找英伟达的缺点。AI芯片独角兽企业SambaNova Systems的CEO Rodrigo Liang称,英伟达的芯片有几个迂回,这不错追溯到它们起先在游戏中的用途。其中一个尽头大的问题是,在数据存取方面的本事有限(因为一个GPU无法容纳通盘模子)。

另一家AI芯片初创公司Cerebras则推出了21.5厘米宽的“晶圆级”处理器。咫尺的大部分GPU包含简略千千万万个孤立内核,不错进行并行有计划过,而Cerebras开发的芯片包含近100万个。Cerebras宣称,其另外一个上风是,它的能耗仅为英伟达最佳芯片的一半。谷歌则推出了我方的张量处理单元(TPU),可用于查验和推理。其Gemini 1.5 ai模子一次经受的数据量是GPT-4的八倍,部分原因即是选拔了定制芯片。

顶端GPU的雄壮价值突飞猛进,使其成为地缘政事的筹码。固然芯片产业是群众性的,但唯有少数几个国度的技艺落幕着进入芯片产业高地的通谈。英伟达的芯片在好意思国狡计,天下上起先进的光刻机由荷兰公司ASML制造,而唯有台积电和英特尔等顶端代工场才能使用最顶级的光刻机。关于很多其他征战来说,地缘政事要素雷同悲喜交加,日本是其中的另一个主要国度。

发展芯片和东谈主工智能技艺带来的政事博弈,使列国在这两个技艺范围的插足连续加多,好意思国政府对向中国出口先进芯片实行严厉的管控,而中国正在投资数千亿好意思元来建立我方的芯片供应链。大多数分析东谈主士以为,中国在这方面与好意思国仍存在较大的差距,但由于华为等公司的大笔投资,中国应付出口管束的本事媲好意思国预期的要好得多。

好意思国也在加大投资力度,台积电在亚利桑那州投资约650亿好意思元建立晶圆厂,并赢得约66亿好意思元的补贴。其他国度雷同积极参与到这场竞争中,印度插足100亿好意思元、德国160亿好意思元以及日本260亿好意思元,畴昔,通过把持东谈主工智能芯片以淆乱其他国度东谈主工智能产业技艺发展的花式未必将会失效。

本文由雷峰网编译自:https://www.economist.com/schools-brief/2024/07/30/the-race-is-on-to-control-the-global-supply-chain-for-ai-chips



上一篇:开云(中国)Kaiyun·官方网站马斯克则在X上显露地回复-开云(中国)Kaiyun·官方网站
下一篇:开yun体育网旨在清晰奉献、友爱、相助、逾越的志愿精神-开云(中国)Kaiyun·官方网站