别让存储成为模型训练的关键瓶颈、郑州DELL存储总代理
别让存储成为模型训练的关键瓶颈、郑州DELL存储总代理
郑州DELL戴尔服务器总经销、DELL郑州金牌售后服务维修站、戴尔DELL磁盘柜、戴尔工作站维修站,郑州DELL专业维修站、戴尔光纤存储磁盘柜、戴尔双机热备方案、戴尔HBA光纤存储、郑州DELL服务器总代理、戴尔服务器原装配件
联系人:林建斌13203713625 0371-63572828
地址:郑州文化路东风路欧洲花园里昂座502室
网址:
http://www.dell114.net
http://www.dellbokee.com
据说现在的科技公司,不是在抢GPU,就是在往抢GPU的路上……此前4月,特斯拉CEO马斯克就购买了1万块GPU,他还称公司将继续大量购买英伟达的GPU。 在国内,近日也有报道称,字节跳动今年向英伟达订购了超过10亿美元的GPU,仅字节一家公司今年的订单,可能已接近英伟达去年在国内销售的商用GPU总和。
别让存储成为你的 关键瓶颈 如果说HPC的历史教会了我们什么的话,那就是不能以牺牲存储和网络为代价,过分关注计算。如果存储无法以良好的性能及时将数据传输到计算单元,那么即使你手握世界上最多的GPU,也无法将其转化为效率。 IT分析公司 Small World Big Data 的分析师 Mike Matchett 表示,有些模型足够小,可以在内存(RAM)中执行,从而将更多的注意力放在计算上。但如今像ChatGPT这样的大模型,需要数十亿个节点,无法保存在内存中,因为成本太高。 “你无法在内存中存放数十亿个节点,存储变得更加重要。”Matchett 说。
一般而言,无论是怎样的用例,在模型训练的过程中都有四个共同点: 训练模型 推理应用 数据存储 加速计算
而在这些要素中,数据存储在规划过程中往往容易被忽视。 因为在创建和部署模型时,大多数的要求是迅速通过POC或测试环境,从而尽快开展模型训练,数据存储需求并不是优先考虑的。 然而,挑战在于训练或推理部署可能持续数月或数年时间。许多公司在这段时间里迅速扩大了模型规模,而基础设施也必须扩展以适应不断增长的模型和数据集。 谷歌此前公布的数百万ML训练工作负载的研究报告表明,工作负载平均花费30%的训练时间在输入数据的管道上。虽然过去的一些研究工作侧重于通过优化GPU来加速训练,但在优化数据管道的各个部分方面仍然面临许多挑战。
确定合适的存储系统