别让存储成为模型训练的关键瓶颈、郑州DELL存储总代理

小编公司新闻 2023-07-11 2622 浏览

郑州DELL戴尔服务器总经销、DELL郑州金牌售后服务维修站、戴尔DELL磁盘柜、戴尔工作站维修站，郑州DELL专业维修站、戴尔光纤存储磁盘柜、戴尔双机热备方案、戴尔HBA光纤存储、郑州DELL服务器总代理、戴尔服务器原装配件

联系人：林建斌13203713625 0371-63572828

地址：郑州文化路东风路欧洲花园里昂座502室

网址：

据说现在的科技公司，不是在抢GPU，就是在往抢GPU的路上……此前4月，特斯拉CEO马斯克就购买了1万块GPU，他还称公司将继续大量购买英伟达的GPU。

在国内，近日也有报道称，字节跳动今年向英伟达订购了超过10亿美元的GPU，仅字节一家公司今年的订单，可能已接近英伟达去年在国内销售的商用GPU总和。

而在企业这边，为了“珍惜”来之不易的GPU，IT人员也在快马加鞭，他们希望能让GPU时刻忙碌，从而确保投资回报。不过有的企业可能会发现，GPU数量增加了，但GPU闲置却越来越严重。

原因何在？

别让存储成为你的

关键瓶颈

如果说HPC的历史教会了我们什么的话，那就是不能以牺牲存储和网络为代价，过分关注计算。如果存储无法以良好的性能及时将数据传输到计算单元，那么即使你手握世界上最多的GPU，也无法将其转化为效率。

IT分析公司 Small World Big Data 的分析师 Mike Matchett 表示，有些模型足够小，可以在内存（RAM）中执行，从而将更多的注意力放在计算上。但如今像ChatGPT这样的大模型，需要数十亿个节点，无法保存在内存中，因为成本太高。

“你无法在内存中存放数十亿个节点，存储变得更加重要。”Matchett 说。

一般而言，无论是怎样的用例，在模型训练的过程中都有四个共同点：

而在这些要素中，数据存储在规划过程中往往容易被忽视。

因为在创建和部署模型时，大多数的要求是迅速通过POC或测试环境，从而尽快开展模型训练，数据存储需求并不是优先考虑的。

然而，挑战在于训练或推理部署可能持续数月或数年时间。许多公司在这段时间里迅速扩大了模型规模，而基础设施也必须扩展以适应不断增长的模型和数据集。

谷歌此前公布的数百万ML训练工作负载的研究报告表明，工作负载平均花费30%的训练时间在输入数据的管道上。虽然过去的一些研究工作侧重于通过优化GPU来加速训练，但在优化数据管道的各个部分方面仍然面临许多挑战。

确定合适的存储系统

共 1 页 1 条数据