Skip to main content

tplogin.cn首页 > 新闻资讯 >

那些年运维遇到的悲惨服务器

2012-07-12 16:53 浏览:

2012年5月11 16点00分,接到xx科技部的电话,告诉我IBMX346的服务器同时坏了2块SCSI146G硬盘,现在系统进不去了.问我周六周日能否去修复,和我的领导沟通后明确要周一才能拿到配件上门服务.

周一11点才拿到2块SCSI 146G硬盘,匆忙赶去该行,还好不要数据恢复,估计不是很重要的业务,吃完中饭之后,开始重新安装系统,6块146G硬盘,5块做RAID 5,还有1块做热备,这种服务器应该有快10年了,还在继续使用,也不知道领导是怎么想的,就不怕系统硬件出问题啊? 到下午2点左右,系统也弄好了,剩下的事情就可以交给他们做了.我正想回公司,匆忙有人跑来告诉我,又有一台服务器坏了,我的天,今天是怎么回事啊.

跑过去一看,又是一台IBMX346服务器,简单了解了一下情况,说是在KVM操作的时候,系统没有反应了,好像死机了,然后就重起了,结果重起之后,发现找不到硬盘了,再仔细一看,发现RAID卡找不到了.这个是生产系统,随时要用的,让我赶紧想想办法先弄好,还和我说这个没有备份的,就只有这台生产机.和该行科技部的人员说,要不从其它同型号不用的服务器上拆块RAID卡接到这台服务器上,问我要多少时间,我说1个小时差不多了,他们打个电话问了其它技术人员,询问把硬盘拆到其它同型号服务器上的可行性,技术上说是行的,只要手动ONLINE就行了.

他们马上发通知这台服务器出故障了,我断电后,拆开这台坏的服务器,发现RAID卡上电池都鼓包了,RAID带电池那端都变形了.从同型号的机子上拆了一块卡过来,接上PS/2的键盘鼠标后,用SERVERRAID 8.4引导,结果出现对话框,好几个选项,选择F4从磁盘引导,F10什么都不改变,结果键盘怎么按都没有反应,当时以为是键盘有问题,结果坏了一块键盘还是一样.这个办法不行,只好把6块硬盘按顺序标好,接到同型号的不用服务器上(4块73G硬盘,做RAID 5),装上光盘,引导之后,发现有4块硬盘OFFLINE,一个逻辑盘状态失败,F10什么都不改变,光盘引导进入之后,发现0,1,2,3,都是OFFLINE,还有4,5两块是REDY状态,想想刚才的电话交流,我也认为引导之后手动ONLINE就可以了.

悲剧就从这个时候开始了,他们给我的是误导我的提示.我想想6块盘做RAID 5,已经有2块REDY,再弄3块就可以引导系统了,于是手动把前面0,1,2三块盘设置成ONLINE,奇怪了,为什么第3块不能ONLINE呢?当时也没有多想,直接重起.结果系统没有起来,直接提示错误的操作系统,我一看坏事了,光盘引导之后,进入后发现前面3块在做RAID5,已经到了1%,马上关机,这时候科技部的人也有些担心了,问我公司还有没有人会弄,打个电话问问,我还是不死心,在试着操作3号盘,显示在rebuilding,我的天,这个时候一子下明白刚才手动ONLINE是做什么了.

这个时候经理打电话过来了,问我怎么回事了,估计已经有人打电话给经理了,我把大概情况说了一下,经理就说我了,什么不好操作,去动他的硬盘,我只好说以前他们都要求我帮他们操作过很多次了,从这台服务器几块盘接到其它服务器上直接导入RAID就行了,这次是意外失手.经理说我:常在河边走,哪有不湿鞋的.一会带个工程师会过来看看.该行的科技人员问我数据会不会丢失,我用那种不是很肯定的语气和她说,应该不会的.她在那里双手祈祷,千万不要丢失啊.

关机之后,我理了一下思绪,想想领导所说的话,如果你提前打电话给我,告诉我要移动硬盘,我肯定不会同意你这么操作的,拆硬盘到其它服务器会有风险的,还是高风险.唉,这种事情怎么说呢,如果操作的话,你好我好大家都好,如果失败了,责任就全部都是公司的,刚才问过相关人员了,这个还好不是非常重要的生产系统,如果是生产系统,那就问题大了,不仅行里的人员会受处分,领导也会有麻烦的.相关责任人员弄不好要受刑事责任的.越想越觉得害怕啊.现在真是的如坐针毡啊,就想经理他们早点到.

经理和工程师很快到了,我和工程师简单说了一下过程,他说本来你这样操作风险就是很高的,不过你只要操作小心,一般也没有什么大的问题,你现在的问题是属于2次破坏,你现在的阵列是从后来RAID卡拷贝过来的,这块卡原来是4块做RAID5,不是这6块盘自带的阵列,如果你选择从6块硬盘拷贝到阵列卡,那就没有什么问题.如果你把后来那块的配置信息全部清干净了,相当于一块新盘,就只能读6块盘导入阵列,这就没有问题,现在看看原先这块卡的阵列信息在不在,如果不在就只有数据恢复了.结果把单把6号盘接到原来的卡上,读取阵列信息失败.

相关文章

那些苹果设备不适合升级ios16,ios16不建议升级机型详情

2022-03-25 15:24:21    浏览: 177

计算机意外地重新启动或遇到错误,windows无法安装怎么办

2022-01-29 03:53:23    浏览: 0

提示计算机意外地重新启动或遇到错误,windows安装失败的情况

2022-01-22 01:09:32    浏览: 0

经常遇到的windows11开机问题的汇总

2021-08-08 02:16:37    浏览: 0

校园路由器遇到故障怎么排除

2021-03-15 04:38:58    浏览: 0