华为:企业开发及实施大模型应用过程面临四大挑战

  深圳7月14日电(记者 郑小红 陈文)14日在深圳举行的“大模型时代华为AI存储新品发布会”上,华为公司副总裁、数据存储产品线总裁周跃峰表示,企业在开发及实施大模型应用过程中,面临四大挑战。

  首先,数据准备时间长,数据来源分散,归集慢,预处理百TB数据需10天左右;其次,多模态大模型以海量文本、图片为训练集,当前海量小文件的加载速度不足100MB/s,训练集加载效率低;第三,大模型参数频繁调优,训练平台不稳定,平均约2天出现一次训练中断,需要Checkpoint机制恢复训练,故障恢复耗时超过一天;最后,大模型实施门槛高,系统搭建繁杂,资源调度难,GPU资源利用率通常不到40%。

OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体 华为 供图
OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体 华为 供图

  目前全球高端存储的主要玩家包括华为、美国的EMC、日本的日立等。当天,华为针对不同行业、不同场景大模型应用,推出OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机。这为基础模型训练、行业模型训练,细分场景模型训练推理提供存储最优解,释放AI新动能。

  华为分布式存储领域副总裁韩振兴表示,无论在大的计算中心、大的模型里,目前还存在对算力的建设过多、存力的建设过少的问题,这会导致数据归集、预处理到训练/推理的全流程的过程中,算力会闲置,存力不上去的时候,算力只能等待,这样就造成资源的浪费。(完)