欢迎您访问广东某某机械环保科有限公司网站,公司主营某某机械、某某设备、某某模具等产品!
全国咨询热线: 400-123-4567

新闻资讯

哈希游戏| 哈希游戏平台| 哈希游戏APP

HAXIYOUXI-HAXIYOUXIPINGTAI-HAXIYOUXIAPP

哈希游戏- 哈希游戏平台- 官方网站曙光存储郭照斌:自研“超级隧道”集中式全闪锚定新航道

作者:小编2025-05-26 14:49:40

  哈希游戏- 哈希游戏平台- 哈希游戏官方网站

哈希游戏- 哈希游戏平台- 哈希游戏官方网站曙光存储郭照斌:自研“超级隧道”集中式全闪锚定新航道

  在大模型训练与推理的速度层面,存储系统的核心目标是通过缩短数据访问耗时并降低延迟,为CPU/GPU腾出更多运算时间,避免因存储瓶颈导致算力资源闲置。由于存储协议遵循固定标准,其性能提升需依赖硬件加速(如全闪存架构)与软件优化(如多级缓存机制)的双重路径:通过在存储环节引入多级缓存机制如内存级缓存与NVMe SSD缓存结合等,可显著降低文件序列化、小文件查询及向量数据库访问的延迟;采用分布式并行写入技术,使千亿参数模型的Checkpoint耗时从分钟级缩短至秒级。

  构建“部件级”到“系统级”再到“方案级”多维度可靠性设计架构,提供“安如磐石”的高可靠保障。部件级,独创RAID QC“四盘校验”技术,存储池可同时应对四块盘故障,保障数据与应用安全,且写入流程采用随机写入数据化、满条带镜像写,降低大容量SSD时代RAID写惩罚(Write Penalty)。方案级提供联网关AA对称双活、异地复制方案,支持跨存储集群保障数据可靠性,业务系统可跨城市部署,就近访问存储系统,减少时延,还能实现两地三中心或四中心多级容灾。

  为了解决多NUMA或多CPU方式带来的CPU之间或NUMA之间访问代价大的问题,曙光存储推出了“微控模型”以精准适配硬件特性。在硬件层面,CPU、内存、硬盘等资源采用“分组作业”,彼此独立运行互不干扰,从而实现性能翻倍提升。例如,对于网卡和盘的配置,若只有一个网卡,曙光存储可借助虚拟化技术让每个NUMA都感觉拥有自己的独立网卡;若有多个网卡则进行分组处理,保证各NUMA域能在高性能模式下获取最近的硬件资源。

  在软件逻辑层面,曙光存储从微控视角对数据进行切分,不同逻辑空间关联的硬件资源相互隔离,就像构建了多条垂直“隧道”。IO数据从网络进入后,经CPU处理、内存访问再到硬盘,整个过程都在同一“隧道”内完成,实现数据就近访问,大大提升了性能。并且,在后端采用多路径技术,待数据逻辑请求进入时就确定归属的微控制器和对应的“隧道”,确保数据能始终快速传输直至持久化落盘。这种设计让系统具备线性可扩展性,CPU数量增加时各CPU间耦合性低,打破了以往依赖单一高性能CPU来提升性能的局限,有效地降低了成本。

  曙光存储还引入了RDMA、NVMe等技术,相比传统TCP、iSCSI协议更加精简,能够减少协议带来的性能损耗,让数据更直接地到达硬件。在高性能模式下,传统CPU依赖中断的方式存在多种弊端,如中断开销干扰正常业务运行,频繁的上下文切换也会极大增加系统开销,严重影响性能提升。曙光存储采用“QP + 轮询”机制,关闭中断,主动查询事件,进一步简化协议实现纯用户态操作,缩短数据路径,提高性能与可靠性。这一技术应用对硬件设计也产生积极影响,使硬件设计更为简单,最终实现硬件、协议和执行流程的全面优化,显著提高了系统可靠性与性能。