人们经常会在热搜上看到某个网站崩了,某个APP服务器“走丢”了,这背后,都是对服务器安全及可靠性的担忧。尤其是政府、金融、电网以及铁路等行业对IT基础设施的可靠性以及安全性要求极高的行业应用,一旦系统出现问题,对用户来说可能是上千万甚至是上亿的损失。
可靠性从4个9到5个9,如何达到?
谈及服务器的可靠性,业内人士常常会用4个9或者5个9,也就是99.99%与99.999%。看上去虽然4个9与5个9的差距仅有微乎其微的0.009%,但是对于核心系统而言,恰恰是这不到0.01%的差距,决定了系统的可靠性完全不在一个层级。
4个9与5个9的可用性,在一年的时间维度上,相差了47.304分钟,平均一个月相差仅4分钟,但是一家大型商业银行如停机超过半小时造成的业务损失与声誉等损失可达数亿元人民币,并且这种损失有逐年递增的趋势。因此大型商业银行需要服务器的可靠性达到“5个9”级别(一年间业务中断时间不能超过5.256分钟)。而比如在电网行业与铁路行业,服务器的可靠性直接关系到居民的用电安全以及乘车安全,因此电网与铁路行业对服务器的可靠性要求同样达到“5个9”的更高级别。
其实,服务器的可靠性并不完全取决于硬件,而是由软件和硬件来共同决定的,想要一款高可靠的服务器,就必须从元器件的选择、硬件架构设计、生产组装、品质检测各个环节严格把控。多年以来,浪潮在服务器领域积累的丰富的设计制造经验,并将这些经验不断总结提炼,形成了一套独有的方法论。
精细考量 不放过任何一个元器件
千里之堤毁于蚁穴,任何一点小小的瑕疵,都可能成为引起整个系统崩溃的元凶。一台服务器拥有至少5000多个元器件,每一个元器件的选择都不能容许任何瑕疵,所以选择可靠的元器件是最基础,却也是最不容忽视的关键一步。
浪潮服务器在选择元器件时,首先会对众多供应商的产品质量、技术水平、响应速度以及环保标准等方面进行综合考量,从中选出满足标准的供应商。同时,浪潮服务器要求所有元器件满足高于国家通用规范的降额设计标准,即元器件在工作中承受的极限应力小于额定值,并留有足够的应对极限情况的余量,其实主要是电应力和温度应力,保障高可靠的电性能及较低热衰减,大大降低故障率,提升系统可靠性。
此外,为了确保所有元器件并非“外强中干”,浪潮还会采用诸多先进的元器件分析设备,如双束聚焦离子束显微镜、等离子刻蚀机等,对其进行剖析、验证、失效分析等,以确定器件的工艺水平、质量满足浪潮服务器生产要求。
潜在故障预测分析 将一切隐患扼杀在摇篮
虽然大部分企业业务系统都有故障预警应急机制,而大部分服务器等IT基础设施也都有故障快速定位功能,但是浪潮服务器追求的却是从产品设计阶段就把所有可能存在的潜在问题快速识别出来,从而预先采取防御措施,将一切隐患扼杀在摇篮里。
在产品设计阶段,浪潮针对所有板间互联信号和关键器件的工作状态进行仿真分析,确保无故障遗漏,并对故障进行预测识别和优化处理。同时要进行系统级故障监测、预警及隔离开发,对于所有风险,要求尽最大可能避免,对于需要处理的故障,要求能够快速监测定位。
浪潮服务器尽量在设计阶段最大限度地消除潜在的可靠性隐患,在产品发生故障之前提前进行分析,确保各组件之间实现最高可靠协同运行。
关键系统创新性设计 给可靠性再加一道保险
浪潮对服务器的散热系统、存储系统以及系统备用等方面不断进行创新性探索和研究,保障服务器可靠性在整机层面臻于极致。
服务器为了追求更高密度,不断压缩空间,对散热带来了很大的挑战,在现有的风冷致冷条件下,浪潮服务器采用了许多创新性散热设计,例如在M6系列服务器中增加蜂窝波导散热网,对风扇入风处风流做整流处理,提高风扇进风口的流速并且减少了扰流的产生,加大波导网厚度可进一步提高空气压力,产生平行稳定且强劲的气流,相比传统服务器,散热效率整体可提升22%。
存储型服务器因为配备了大量的硬盘往往面临着共振问题,针对这个问题,浪潮服务器的硬盘托架专门选择了航空减震材料,能够有效抗震,保证硬盘安全的同时大幅降低故障概率。同时配备硬盘故障监控、预警功能,可对硬盘无法读写、硬盘RAID信息损坏、硬盘读写速度变慢、硬盘温度过高等故障进行快速告警。
浪潮服务器注重热插拔设计,对电源模块、风扇模块、存储模块、IO模块等关键模块均采用冗余设计,可实现在线更换,保证系统稳定可靠的运行环境。
魔鬼般检测标准 确保都是精品
在汽车届著名的达喀尔拉力赛,被称为勇敢者的游戏,参赛选手们需要在最短时间内穿越无人的沙漠险地。由于赛程地势险峻、气候恶劣,对汽车和车手堪称魔鬼般的历练,没有强大的技术和品质保证,很难跑完全程。在浪潮的实验室,每一款服务器出厂之前也都要经过“达喀尔拉力赛”:跌落、冲击、雷击、高低温、高低湿、盐碱、噪声、电源、老化、失效分析……测试,覆盖了产品设计验证、测试到产线质量保障等14个技术平台,解决从产品可行性验证、产品和部件各类测试、量产问题消除等覆盖全生产链的技术问题。
浪潮服务器生产线配备老化实验室,对服务器进行加速寿命试验。这主要是为了加速暴露母板的设计缺陷和薄弱点,并对暴露的缺陷和故障从设计、工艺和用料等诸方面进行分析和改进,从而达到快速提升产品可靠性的目的。
此外还会进行超过业界标准的电磁兼容性测试,所谓电磁兼容,就是对电子产品在电磁场方面干扰大小(EMI)和抗干扰能力(EMS)的综合评定,是产品质量最重要的指标之一,涉及传导抗扰度、射频抗扰度、静电抗扰度等多项测试指标。
为了让服务器具备更强的环境适应性,浪潮服务器还会模拟运输环境测试、气候环境测试和极限环境测试,进行三大类几十种测试,检验服务器在各种条件下的可靠性,测定耐受高低温、跌落、高湿等恶性环境的极限。例如进行45度/分钟的温度剧变试验,在零上100和零下40-50度进行产品温度极限测试,30G震动过载抗振强度,模拟海拔12000米的环境进行高空低气压测试等。
百炼成钢 磨砺铸就完美
通过前面的介绍可以看出,想要锻造一款真正高可靠的服务器,需要每个阶段全方位的努力,对元器件严苛的品质管理,对产品设计快速准确的自我纠错能力,对产品系统设计的不断创新,对出厂产品的一道道检测标准,只有这些都不断做到完美,才能产出真正高可靠的服务器。
浪潮服务器正是秉承着这样的原则,一步步打造出全新的M6系列服务器,针对智慧时代需求设计,包括面向云计算、大数据、人工智能等应用场景的6大系列16款产品,以业界最为丰富的场景产品阵列为用户数字化转型提供更加强大的算力支撑。
本文作者浪潮信息服务器产品线副总经理 陈彦灵
稿源:美通社