浪潮信息Lance SUN:高效数据编排,加速数据在AI场景释放潜能

AIGC作为当下最火的技术话题,其业务流程涉及到数据的采集、处理、训练、推理和归档五个阶段,每个阶段都面临着不同的存储需求和挑战。随着数据量的爆炸性增长,特别是随着多模态数据的快速增长,对存储系统的扩展性和服务兼容性也提出了新的挑战。

在2024年数据基础设施技术峰会上,浪潮信息分布式存储产品线架构师Lance Sun博士发表了题目为"高效数据编排,加速释放数据潜能"的主旨演讲,详细讨论了高效数据编排对于解决上述挑战,并释放数据潜能的重要性。

1.jpg

AIGC带来的存储挑战凸显了数据的重要性

首先,Lance Sun博士详细介绍了AIGC对存储提出的需求和挑战,让我们对AIGC的业务流程和对数据存储的需求有了更深入的认识。

第一个是巨量多模态数据的挑战。很多大语言模型都采用了来自Common Crawl的数据集,这个组织在过去17年已经采集了2500亿网页,现在还在持续收集更多。IDC预测,到2025年,全球数据总量将超过175ZB,这种增长对存储系统的多样性和扩展性带来了挑战。

第二个挑战是对超大读写带宽的需求。在训练阶段,checkpoint的管理是关键,良好的存储性能应在12分钟内完成checkpoint的读写操作,确保不拖慢整个训练过程。同时,由于GPU成本高昂,更高的存储性能可以减少显卡的等待时间,减少资源浪费。

第三个挑战是对于读写IOPS的更高需求。千亿级文件的快速访问对IOPS有着极高要求,在某些采用shuffle洗牌策略的训练过程,如果IOPS性能不够,会导致元数据服务器产生大量的通信阻塞,同时会造成GPU集群等待,影响训练效率,造成资源浪费。

第四个挑战在于数据全生命周期管理。在数据清洗和标注算法日益发展的今天,数据作为企业的核心资产,企业需要对数据进行长期保存。于是,如何将数据以较低的成本安全存储起来,也成为更重要的课题。

为了说明高质量数据的重要性,Lance Sun博士还提到了ImageNet数据集。作为高质量的数据集,它极大地推动了深度学习算法的发展。2012年,AlexNet在ImageNet挑战赛上取得成功,这不仅验证了深度学习模型处理复杂视觉任务的能力,也激发了后续研究和多种新算法的产生。

由此可见,数据的采集和高质量的数据清洗,对AI的发展至关重要的。过去十多年的时间里,语言类模型的数据集规模,模型参数规模,AI芯片计算能力和数据存储需求都发生了显著变化。

AIGC在数据归集面临的挑战与浪潮信息的解决之道

在数据存储方面,随着数据集规模和多样性增加,越发依赖更大规模的存储服务器集群。Lance Sun博士介绍称,很多传统行业都积累了大量数据,这些数据需要在不同的存储系统间进行高效的数据流转以支持AI和大数据分析,这在现有的存储架构中造成了数据流动的效率问题。

事实上,多数据中心和异构存储环境中数据迁移面临很多挑战,对此,Lance Sun博士总结了三点:

第一点,数据访问分散。数据迁移的过程对用户来说是不透明的,严重依赖第三方迁移软件,而且受网络波动和存储性能的影响,容易导致数据迁移时间过长,增加操作的不确定性和复杂性。

第二点,空间和时间成本的浪费。迁移过程常用纠删或副本机制来提高可靠性,但这会导致时间和空间成本大幅增加。此外,这一过程还严重依赖于第三方迁移软件的性能,不同存储平台的使用容量差异可能导致数据副本迁移时出现容量不均衡问题。

第三点,运维复杂性增加。由于不同存储产品的特性差异,使得存储厂商各自发展出不同的运维管理系统,数据的频繁迁移或长时间迁移导致数据管理混乱,导致运维时间和成本显著增加。

为了应对多数据中心和异构存储环境中数据管理和迁移挑战,浪潮信息存储进行了大量工作,基于AS13000构建了一套全局数据管理平台。

2.jpg

在全局数据管理平台的最上层,通过一个统一的全局命名空间提供用户视角的完全统一,确保所有数据都可以通过一个统一的入口进行访问和管理,极大地简化了数据操作流程。

第二个层面,系统支持多种标准协议接口,包括Linux的NFS、对象存储的S3、大数据的HDFS、容器化的CSI接口以及Windows环境下的SMB协议。这样的设计使得平台能够广泛兼容各种应用和环境,满足不同场景的需求。

最后一层,AS13000引入了智能数据编排和缓存系统。智能数据编排引擎利用人工智能算法自动让数据在热、温、冷存储之间的流转,优化数据存储效率。而高效的缓存系统可以为短期内频繁使用的极热数据提供快速访问能力,加速数据的流转。

最终,用户可以基于AS13000的全局数据管理平台实现数据在任何地点,任何时间以任何类型可视可管可流动。

Lance Sun博士还指出了市场上一些方案的不足。比如,一些方案在数据采集阶段使用了混闪对象存储,而在训练阶段使用全闪存储技术。然而,数据在两个存储集群的流转非常低效,数迁移过程中,经常由于网络波动造成文件断传。

相比之下,AS13000由于在一套系统内引入了多协议融合互通技术,直接省去了数据迁移的过程,大大提高了训练数据的准备效率,以确保数据在训练和处理阶段的高效率和低延迟访问。 

AIGC存储的技术展望

AIGC技术的影响力日益扩大,各大存储厂商对此高度重视,存储系统的创新和演进均将AIGC作为核心考量。在演讲的最后,Lance Sun博士详细介绍了浪潮信息存储在AIGC领域的未来发展关键方向和技术动向,并表示浪潮存储将持续深度融入AI生态系统。

在行业技术方面,GPU直连存储技术已在众多文件系统层面广泛应用,其在大文件读写方面的性能表现尤为出色。浪潮信息与英伟达及业界厂商紧密合作,致力于推动完整技术体系和标准的落地。

在行业基准评测方面,浪潮信息积极参与权威的AI性能测试基准—MLperf Storage评测,并在多项负载性能评测中表现优异,帮助企业选择最适用于AI场景的存储系统。

存储的安全问题同样不容忽视。英伟达在2024年的GTC大会上提到包括加密计算在内的多种安全技术,而在存储层面,同样需要提供强有力的数据保护措施。浪潮信息存储正在多租户权限隔离、防勒索等数据保护技术领域进行深入探索。

谈到未来发展,Lance Sun博士表示,存储性能的持续优化是浪潮信息存储的核心目标。浪潮信息将继续通过软硬件结合的持续创新,力求在智算产业和AI产业中实现快速落地,推动整个行业的进步。

2024年,AIGC依然是最热技术话题,其迅猛的发展速度和广阔的应用前景吸引了众多关注和创新力量。凭借在数据存储领域的持续创新和深耕,浪潮信息正站在这场技术革新的前沿。

稿源:美通社

最新文章