桐乡纫景迟网络技术有限公司
桐乡纫景迟网络技术有限公司
你的位置:桐乡纫景迟网络技术有限公司 > 卡机架配件 > 融资1.2亿好意思元!00后哈佛华侨辍学生建树Transformer专用加快芯片,比英伟达H100快20倍

融资1.2亿好意思元!00后哈佛华侨辍学生建树Transformer专用加快芯片,比英伟达H100快20倍

发布日期:2024-06-27 07:08    点击次数:187

融资1.2亿好意思元!00后哈佛华侨辍学生建树Transformer专用加快芯片,比英伟达H100快20倍

文|王沁 王奕昕

裁剪|李然

又是藤校生辍学创业,斥地时期新路子,挑战主流的故事。

两个从哈佛退学的00后本科生,建树了一款新的AI芯片,筹集了高达1.2亿好意思元。

图源:X(

两位辍学生创立的公司名为Etched AI,建树的这款芯片名为「Sohu」(但不是“搜狐”),是专为Transoformer架构大模子研发的ASIC芯片。比较于占据AI芯片把持地位的、正本作为图形处理器的英伟达GPU,Sohu芯片只脱手Transformer架构的模子,但脱手速率比GPU快一个数量级。

图源:X(

当地时辰6月25日,Etched文书完成 1.2 亿好意思元的 A 轮融资,由早期投资机构Primary Venture Partners 和 Positive Sum Ventures 共同领投。分量级天神投资东说念主包括风险投资家 Peter Thiel、GitHub 首席实践官 Thomas Dohmke、自动驾驶公司 Cruise 的衔尾创举东说念主 Kyle Vogt, 以及Quora的衔尾创举东说念主Charlie Cheever。目下公司莫得流露新一轮融资后的估值。也曾有早期客户,向Etched AI预订了数千万好意思元的硬件订单。

Etched AI 位于加利福尼亚,是一家“两东说念主公司”,两位创举东说念主王人是2020年干涉哈佛,在校时肆意兼职打工,自后休学创业,其中一位是21岁华侨小哥Chris Zhu,一位是Gavin Uberti。

英伟达的AI芯片帝国,不乏挑战者:芯片初创公司Cerebras Systems的大体积单个芯片,以及 Tenstorrent公司的RISC-V时期芯片。当今英伟达又多了一个更年青、更攫金不见人的敌手——Etched AI。

怎么比H100更快20倍?

人所共知,AI芯片的巨头英伟达聘请的GPU正本是图形处理器,擅长并行处理多个直快的计较,后用于检会AI模子,因为检会AI需要同期对所稀有据样本实践疏导的操作。

但检会AI大模子需要更专用的芯片。Etched首席实践官Uberti 在公开采访中说,“东说念主工智能的发展也曾到了这样一个阶段,性能优于通用 GPU 的专用芯片是不能幸免的——全天下的时期决议者王人知说念这少许。”

「Sohu」芯片是一种 ASIC(专用集成电路),一种为特定应用量身定制的芯片。Sohu只脱手Transformer架构的模子。Transformer 是由谷歌揣度东说念主员团队于 2017 年建议的,已成为占主导地位的生成式 AI 模子算法。

Etched 称Sohu芯片聘请台积电 4 纳米制程制造,不错提供比 GPU 更好的推感性能,同期枉然更少的动力。

Etched声称,与H100比较,一台集成了8块Sohu芯片的劳动器,能匹敌160块H100芯片,这意味着Sohu芯片的速率比H100快20倍。与英伟达下一代 Blackwell (B200) GPU比较,Sohu芯片快 10 倍以上,何况更低廉。

针对Llama 70B 开源大模子,一台Sohu芯片每秒脱手卓著 50万个token,比 H100 芯片(2.3万token/秒)多 20 倍,比 B200 芯片(约 4.5万token/秒)多 10 倍。

针对 Llama 3 70B 的 FP8 精度基准测试夸耀:无稀薄性、8 倍模子并行、2048 输入或 128 输出长度。

Sohu的推理速率是怎么作念到这样快的?

一语气批处理辅导和补全:每个序列包含四个输入鲜艳和四个输出鲜艳;每种颜料代表一个不同的、独处的序列。图源:Etched官网

Sohu芯片聘请了一种名为"一语气批处理"(Continuous batching of prompts and completions)的调动时期。这种措施机要塞将多个输入和输出序列组合在统共处理,充分诓骗了芯片的计较资源。

设想一下,就像是在一个大厨房里,多个厨师同期使用疏导的食材(模子权重)烹调不同的菜肴(处理不同的输入序列)。

这种时期的上风在处理长输入短输出的场景中尤为领会,这碰巧妥贴大多数AI应用的使用格式。通过这种形势,Sohu芯片能够在处理Llama-3-70B等大型模子时达到惊东说念主的效果,远超传统GPU的弘扬。

直快来说,Sohu芯片就像是一个超等高效的并行处理器,能够同期处理大批的AI任务,而不会被内存读取速率拖后腿。这一冲突性的时期有望大大擢升AI应用的反映速率和处理才智,为用户带来更畅达、更智能的体验。

此外,Sohu还能作念到简化推理所用的硬件和软件。由于Sohu不脱手非Transformer模子,Etched 团队不错去掉与Transformer无关的硬件,并削减传统上用于部署和脱手非Transformer的软件支出。

比较之下,英伟达的GPU中,并不是通盘晶体管王人用于大模子的张量计较。举例,H100 有 800 亿个晶体管,但只好27 亿个专用于张量中枢的晶体管,这意味着 H100 GPU 上只好 3.3% 的晶体管用于大模子的矩阵乘法。

Sohu芯片通过仅脱手变压器,在芯片上装配更多的 FLOPS,而无需诉诸较低的精度或稀薄性。

图源:X(

GPU 并莫得在单芯性能上变得更好,只是变得更大了。在当年四年中,计较密度 (TFLOPS/mm^2) 仅提高了约 15%。

新一代GPU王人是靠堆叠多张卡来擢升算力——将两个芯片四肢一张卡,以“翻倍”其性能。NVIDIA B200、AMD MI300X、Intel Gaudi 3、AWS Trainium2等王人是如斯。

跟着摩尔定律(CPU的集成电路上可容纳的晶体管数量,约每隔两年便会加多一倍)放缓,提高芯片性能的独一措施是聘请专科化的芯片,而非通用芯片。

图源:Etched官网

GPU触达天花板:英伟达、AMD、英特尔、亚马逊等公司王人通过将两块芯片合为一体来成倍增强性能。2022年至2025年间,AI芯一忽儿期并莫得“变好”,而只是“变大”。这时间通盘的芯片性能擢升王人是通过“变大”达成的,除了Etched。

Etched声称,如今AI 模子的检会成本卓著 10 亿好意思元,将用于 100 亿好意思元以上的推理。关于这样大的需求,用 5000 万至 1 亿好意思元的定制芯片来换取1%的性能检阅,是合理的。

淌若 AI 模子通宵之间速率提高 20 倍、成本缩短 20 倍,会发生什么?

当下,Gemini 要花卓著 60 秒的时辰来往复干系视频的问题,用AI脱手代码,需要数小时才能完成任务,成本比雇佣东说念主类码农更高。视频生成模子,一秒钟才能生成一帧画面。当 ChatGPT 注册用户达到 1000 万(这还只是人人用户的 0.15%)时,致使 OpenAI 也出现GPU算力荒。

即使以多卡互联的形势堆叠显卡,以每两年 2.5 倍的速率束缚制造更大的 GPU,也需要十年的时辰才能达成即时的视频生成。

而当Sohu芯片能让大模子的推理速率提高20倍,视频模子生成画面能更即时、速即,

音问一出,网友们大多清楚接待,以为这家公司的出现将加快AI调动:

这些推理 GPU 基准测试中的数字很低。底下是我的8xB200推理模子的表面值,适用于 NVLink,8位和70B Llama模子,后者更接近300k token/秒。这意味着好意思满的达成(接近OpenAl/Anthropic所领有的)。图源:X(@Tim_Dettmers)

这使得使用LLM的高档推理用例愈加可行。他们网站上有好多例子。这将加快调动,AI将为更好的AI的发展作念出更大的孝顺。翌日正以极快的速率到来。图源:X(@leonovco)

Sohu用户"径直烧进硅里" vs "GPU呆子"衔恨在不赔本通用计较才智的情况下,无法在Transformer模子上达到40%以上的诓骗率。此图清楚了SoHu芯片在AI特定任务上的上风,以及传统GPU在处理新式AI模子时可能靠近的效果瓶颈。图源:X(@qamcintyre)

两位哈佛本科生休学创业的死活赌注

Gavin Uberti和Chris Zhu休学创业,是在2022年10月,其时离Chat-GPT问世还有一个月,Transformer还远莫得成为主流地位的架构——图像和视频生成模子使用的是U-Net,自动驾驶汽车模子使用CNN。但在其时,两位创业者也曾把全部赌注下在Transformer专用芯片上。

“咱们在东说念主工智能领域下了最大的赌注,”Etched衔尾创举东说念主Gavin Uberti在一次公开采访中清楚, “淌若Transformer湮灭了,咱们就会死。但淌若Transformer能坚合手下去,咱们便是有史以来最大的公司。”

“自后当 ChatGPT 推出时,英伟达股票卖爆了,非常是当其他发布的通盘模子也王人是Transformer架构时,咱们发现我方在正确的时辰处于正确的位置。”Gavin说。

“咱们对我梗直在作念的事情谊到如斯昂扬,为什么咱们辍学,咱们劝服了这样多东说念主离开这些芯片神气——这是咱们要作念的最蹙迫的事情。”自后加入Etched的衔尾创举东说念主Robert Wachen说。

让咱们望望几位如斯年青的创业者的布景是何如的:

Gavin Uberti

Gavin Uberti 是Etched的衔尾创举东说念主兼首席实践官,创业前就读于哈佛大学,攻读数学学士和计较机科学硕士学位。

图源:semi

Gavin正本权术离开哈佛休学一年,但最终在 OctoML 找到了一份从事 ApacheTVM (深度学习编译器框架)开源编译器和matmul内核的责任。

在为 Arm Cortex M4 和 Cortex M7 内核建树微内核时,Gavin 珍摄到 Arm 的指示集莫得 8 位 MAC SIMD 指示,只好 16 位(M4 和 M7 解救许多其他 8 位 SIMD 操作,但 Helium 引入了 8 位 MAC SIMD 指示)。这意味着 8 位 MAC SIMD 操作试验上仅以一半的速率脱手。这不错说是Gavin创办Etched的一个舛错要素。

“这个问题恒久无法处置,每次上班,我王人必须处理这个果决,这让我和 Chris 统共念念考,咱们必须能够作念得更好,”Gavin说。

与此同期,Gavin和Kris还看到话语模子领域正在发生变化,也便是东说念主们对基于Transformer 架构的 LLM 的敬爱激增。

他和Zhu决定创办一家芯片公司,为 LLM 野心更高效的推理架构。天然目下商场上还莫得特意针对 LLM 的加快器,但 Nvidia 也曾文书了针对调动器的软件功能,其他加快器公司也文书解救话语和视觉调动器。Etched.ai 权术通过进一步专科化来与现存企业竞争。

“你无法通过泛化得回咱们所得回的那种检阅,”Gavin说。“你必须在单一架构高下大赌注,不单是是东说念主工智能,还要在更具体的东西高下赌注……咱们以为 Nvidia 最终会作念到这少许。咱们以为这个契机太大了,拦阻冷漠。”

图源:LinkedIn

在Etched,他正在为Transformer架构构建 ASIC(Application-Specific Integrated Circuit,专用集成电路,为特定用途而野心的定制化芯片,能在特定任务上达成最好性能和效果),与通用 AI ASIC 比较,其蒙眬量跳跃一个数量级。

图源:Bloomberg,采访视频携带:https://x.com/Etched/status/1805775989500428739

Chris Zhu

图源:X(@czhu1729)

Chris Zhu,Etched.ai 的衔尾创举东说念主,目下正在建树下一代 LLM 加快器系统。

在创业前,他在校时间就束缚参加科研,束缚兼职实习。

他于2021年9月至2022年4月,在哈佛大学担任各样计较机科学课程的教授揣度员,同期期还曾在亚马逊和 AvantStay 担任软件工程师实习,分辨专注于后端物联网基础措施和 AWS 人人收入运营。

Chris的早期阅历还包括:在2021年2月至6月于哈佛本科本钱合股公司担任实习分析师;2018年1月至2020年5月在麻省理工学院担任揣度员;2019年6月至8月担任波士顿大学 PROMYS 的低级辅导员。

Robert Wachen

图源:X(@robertwachen)

Robert Wachen是Etched的衔尾创举东说念主和COO,他有着特殊丰富的创业经历。

他的学术和创业经历包括:哈佛大学商讨集团、哈佛肯尼迪学院行为细察小组代表、Prod衔尾创举东说念主(2022年7月于今)、Mentor Labs衔尾创举东说念主兼CEO(2022年1月于今)Generate Sales Online 创举东说念主(2016年12月于今)、Birthday Cakes 4 Free Maryland 衔尾创举东说念主兼总裁(2015年9月于今)、蒙哥马利县地区 SGA 财务把持以及蒙哥马利县公立学校“Early Edge”奇迹准备权术的学生代表。

英伟达目下是AI芯片的巨头。据TechCrunch估量,英伟达占据了东说念主工智能芯片约 70% 至 95% 的商场份额。Etched AI的Transformer专用芯片是英伟达的一个年青竞争者。

挑战英伟达的年青竞争敌手还有好多。一个敌手是Cerebras Systems公司,正在建树由整块晶圆作念成的、单个体积最大的 AI 芯片,已累计融资7.2亿好意思元,背后有OpenAI的首席实践官Sam Altman投资。6月20日The Information称Cerebras也曾机密恳求上市。

另一个英伟达挑战者是Tenstorrent,该公司正在使用一种名为 RISC-V 的流行时期来建树AI 芯片。

英伟达鼎峙山头,新势力群雄环伺,两位00后哈佛辍学生创立的Etched AI梗概成为下一个英伟达挑战者。

","del":0,"gnid":"98cf031505483d0ca","img_data":[{"flag":2,"img":[{"desc":"","height":"776","title":"","url":"http://p1.img.360kuai.com/t110df81bbc5b400a918939f591.jpg","width":"532"},{"desc":"","height":"1883","title":"","url":"http://p1.img.360kuai.com/t110df81bbc1e67a40a1b206873.jpg","width":"2107"},{"desc":"","height":"579","title":"","url":"http://p1.img.360kuai.com/t110df81bbc5cc525620863d4bf.jpg","width":"1080"},{"desc":"","height":"1866","title":"","url":"http://p2.img.360kuai.com/t110df81bbcda7e28aaf164f106.jpg","width":"2120"},{"desc":"","height":"841","title":"","url":"http://p0.img.360kuai.com/t110df81bbc9c2329b00c78620b.jpg","width":"1027"},{"desc":"","height":"582","title":"","url":"http://p1.img.360kuai.com/t110df81bbcd7aa5c223a3043ef.jpg","width":"988"},{"desc":"","height":"203","title":"","url":"http://p2.img.360kuai.com/t110df81bbc2362eac499923761.jpg","width":"991"},{"desc":"","height":"665","title":"","url":"http://p2.img.360kuai.com/t110df81bbc13ac5fb3b0b7f54a.jpg","width":"805"},{"desc":"","height":"400","title":"","url":"http://p0.img.360kuai.com/t110df81bbc91cc5961a145797a.jpg","width":"400"},{"desc":"","height":"463","title":"","url":"http://p0.img.360kuai.com/t110df81bbc0c4a53c9bdf05607.jpg","width":"832"},{"desc":"","height":"400","title":"","url":"http://p2.img.360kuai.com/t110df81bbc687b9beea4b13b4a.jpg","width":"400"},{"desc":"","height":"400","title":"","url":"http://p2.img.360kuai.com/t110df81bbcd59c736b9b4bf79f.jpg","width":"400"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"cache","pub_time":1719397380000,"pure":"","rawurl":"http://zm.news.so.com/2ea7c3ef50e132868bdae1c5e82914e4","redirect":0,"rptid":"f912616b31d288a8","rss_ext":[],"s":"t","src":"36氪新媒体","tag":[],"title":"融资1.2亿好意思元!00后哈佛华侨辍学生建树Transformer专用加快芯片,比英伟达H100快20倍","type":"zmt","wapurl":"http://zm.news.so.com/2ea7c3ef50e132868bdae1c5e82914e4","ytag":"科技:通讯产业:半导体","zmt":{"brand":{},"cert":"36氪新媒体官方账号","desc":"科技前沿,交易资讯,深度特稿…每一条新闻王人有价值。","fans_num":396309,"id":"2880442753","is_brand":"0","name":"36氪新媒体","new_verify":"5","pic":"https://p0.img.360kuai.com/t01dbed91a3fb35a26e.png","real":1,"textimg":"https://p9.img.360kuai.com/bl/0_3/t017c4d51e87f46986f.png","verify":"0"},"zmt_status":0}","errmsg":"","errno":0}