电脑知识网 > 电脑故障 > 硬件故障 > 正文
关于青云QingCloud故障的全部过程
网络整理 2018-05-09 12:04因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。设备重启后2小时31分GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。
关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的说明
因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们向受影响的用户表示深深的歉意。现将事故完整过程报告如下:
13:48,我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;
14:08,操作切换DNS以恢复官网及控制台;
14:23,我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;
14:38,GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;
15:15,内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;
16:19,GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。
本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。
故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。
截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:
电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。
防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。
但我们对其中的细节披露和专业解释仍存在以下疑问:
目前建筑防雷系统已相当成熟,可以防感应雷、直击雷和侧击雷。专业的IT基础设施中的四级防雷系统更应该是如此,本次事故中机房的防雷系统为何未能成功防护直击雷?
专业的IT设施防雷系统同民用防雷系统相比防护标准更加严格,本次事故的发生究竟是因为防雷系统失效还是因为防雷标准达不到专业IT设施标准?
防雷系统中包含浪涌保护器,在正常情况下,防雷系统和浪涌保护器会释放掉因雷击产生的瞬时脉冲,从而保证UPS不会产生瞬断。那么昨天的事故中是否存在浪涌保护器失效,未能释放掉因雷击产生的瞬时脉冲,进而导致UPS的断电保护?
就上述疑问,我们正在同睿江科技进行持续沟通以获得真实可信的故障原因分析,也会向用户完整、透明地披露相关信息。
针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:
故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的重要性,因此需要检讨在本次故障通告方面做的不够及时。为此我们制定了未来紧急情况下保障信息通知更加及时、准确的方案。我们会在第一时间通过网站、控制台及“青云QingCloud服务健康状态监控”网站()发布和更新系统异常及故障排除进展的通告,也会更及时地通过短信和邮件等形式向受影响的用户推送相关信息,以保证用户能更及时和准确地了解服务状态。我们非常理解在出现故障时用户面临着巨大的业务端压力,因此由衷地感谢用户们在了解故障信息后对我们给予的理解和支持;
转载请标注:电脑技术网——关于青云QingCloud故障的全部过程
- 上一篇:电脑硬件的故障问题
- 下一篇:谷歌Pixel再出新故障:麦克风无法工作
- 搜索
-
- 2021-05-03故障诊断iPhone硬件
- 2021-04-29aida64中文版单文件版下载
- 2021-04-12电脑硬件故障排除方法
- 2021-03-04或致多种故障 特斯拉召回
- 2021-02-22特斯拉汽车(北京)有限
- 2020-08-22电脑故障检测器 V1.0 绿色
- 2020-08-12计算机硬件故障原理及日
- 2020-08-10Navistar合作Geotab简化车队管
- 2020-08-09电脑硬件故障常见处理方
- 2020-08-09工业交换机出现物理性故
- 2019-07-05浦发银行挂牌出售总部东
- 2019-11-07郭明錤:为适应5G 明年i
- 2020-01-12孙本金:黄金三连跌,受地缘
- 2018-11-03资本困局 + 硬件问题 困扰
- 2018-12-20主机板冰汽时代游戏画面
- 2019-01-17玩家爆料《炉石传说》破
- 2019-03-21宜宾智轨T1线即将运行 交
- 2018-04-19iPhone 7 Plus镜头出问题:系
- 2019-05-08高职大规模扩招,师资、
- 2019-12-02正邦科技子公司违法遭处
- 2021-05-03故障诊断iPhone硬件
- 2021-04-29aida64中文版单文件版下载
- 2021-04-12电脑硬件故障排除方法
- 2021-03-04或致多种故障 特斯拉召回
- 2021-02-22特斯拉汽车(北京)有限
- 2020-08-22电脑故障检测器 V1.0 绿色
- 2020-08-12计算机硬件故障原理及日
- 2020-08-10Navistar合作Geotab简化车队管
- 2020-08-09电脑硬件故障常见处理方
- 2020-08-09工业交换机出现物理性故
- 标签列表