2020-5-13 11:35

广西电信支援用户打赢系统数据恢复战

“您好,我厅系统数据库出现故障,请求立即支援恢复!”

4月9日上午9时,正在办公室埋头处理事务的中国电信广西公司企业信息化事业部共产党员、副总经理袁文亮,接到某用户紧张而急促的求援电话。他立即放下手头工作,紧急启动了应急抢修策略,由自己亲自带队,与共产党员、技术经理黄实及技术专家吕松清,驱车向用户单位奔去。

原来,这天上午该用户的工作人员,发现本系统数据库运行缓慢,面临极高的数据丢失风险。情急之下,他们想到了中国电信,请求技术支援。

了解情况后,经验丰富的三位电信IT专家吓出了一身冷汗:一是时间紧迫。虽然系统故障的发生和发展都有必然的客观规律,但故障出现后的数据“崩盘”却有不可预知的突发性以及后果的严重性,只有把握了这个规律,并与故障“崩盘”抢时间、抢速度方能抵御风险。二是事关重大。用户的数据库的数据与疫情防控、复工、复产、复课息息相关,特别在当前群众宅家成为新常态下,在家办公、在线咨询查阅资料等需求量大,线上业务办理率再度飙升,数据一旦丢失,其线上、线下业务查询工作及网上便民服务将会停摆。三是由于用户职能性质及网络故障的特殊性,决定了数据库(数据中心)的数据恢复环境相对复杂。

时间紧、任务重,中国电信广西公司袁文亮等3位电信技术专家,以及该用户网维技术人员组成虚拟攻关团队,并作了详细分工。他们首先查看了该用户环境数据库和故障日志,发现数据库有IO报错,但观察数据库还能正常启动,那么数据应该完好存在。于是,他们按照以往经验,利用一些恢复工具进行处理。本该可以基本解决问题了,但是当读到脏块后却出现了掉盘,影响到数据库异常关闭,无法提供服务。

不仅如此,新的问题又接踵而至。他们进一步检查发现,一份数据库无备份,主要通过将大表分片然后expdp导出的技术手段,绕过坏盘脏块恢复数据,而该库的技术难点,在于存在非常大的大表,最大的达到3TB以上,需要将此表做多个分片导出,每个分片都需要一条脚本,量大且复杂。他们小心奕奕地先找出一些对应的备份信息,进行灾难性修复尝试。但是,挂载扫描后,能够看到一些零星的数据,却出现了乱码。

此时已经夜深了,墙上挂钟的时针指向了次日凌晨3点20分。经过热烈的讨论研究,他们改变方法思路,重新提出了三套数据恢复方案。同时还编制了100多条恢复脚本,作为判断能否顺利“通关”的重要根据。

第二天上午约11时,经过20多个小时的共同努力,终于度过了技术攻关团队梦魇的至暗时刻:数据基本得到恢复,系统得以正常运行,确保了用户网络信息安全,真正发挥了中国电信强大的支撑和辐射作用,受到了用户的高度赞扬。

作者:许辉坚   来源:通信信息报

相关

中国电信信息化网络
本评论 更新于:2024-3-28 17:32:39
在C114 APP中与业内人士畅聊通信行业热点话题!