服务器数据恢复—MSA2000存储raid5阵列瘫痪导致lun不可用的数据恢复案例

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
云服务器(按量付费),48vCPU 186GiB
简介: 服务器存储数据恢复环境:某品牌MSA2000存储,该存储中有一组由8块SAS硬盘(其中有一块热备盘)组建的RAID5阵列,raid5阵列上层划分了6个lun,均分配给HP-Unix小型机使用,主要数据为oracle数据库和OA服务端。服务器存储故障:该MSA2000存储RAID5阵列中2块硬盘出现故障离线,阵列中只有一块热备盘,虽然热备盘成功激活,RAID5阵列瘫痪,上层LUN无法使用,存储不可用。

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

服务器存储数据恢复环境:
某品牌MSA2000存储,该存储中有一组由8块SAS硬盘(其中有一块热备盘)组建的RAID5阵列,raid5阵列上层划分了6个lun,均分配给HP-Unix小型机使用,主要数据为oracle数据库和OA服务端。

服务器存储故障:
该MSA2000存储RAID5阵列中2块硬盘出现故障离线,阵列中只有一块热备盘,虽然热备盘成功激活,RAID5阵列瘫痪,上层LUN无法使用,存储不可用。

服务器存储数据恢复过程:

1、收到故障存储中所有磁盘后,由硬件工程师对所有磁盘做物理故障检测,没有发现有硬盘存在明显物理故障,都可以正常读取。使用坏道检测工具检测所有磁盘,也没有发现有硬盘存在坏道。
2、将所有磁盘以只读方式做扇区级全盘镜像。镜像完成后将所有磁盘还给用户方,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
01.jpg

注:由于所有磁盘没有检测出存在明显的物理故障或者坏道,所以可以判断出磁盘离线的原因是读写性能不稳定。因为MSA2000存储中的raid控制器的磁盘检查策略非常严格,一旦阵列中有磁盘性能不稳定,控制器就将这些磁盘识别为坏盘并踢出RAID。一旦RAID中掉线的盘到超过该RAID级别所允许掉盘的最大数量,该RAID崩溃,上层基于RAID的LUN也将不可用。
3、MSA2000存储的LUN都是基于RAID的。分析所有磁盘中数据,发现其中一块盘的数据同其它盘不一样,可以初步判断这块盘是热备盘盘。分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,初步判断此硬盘是先掉线的那块磁盘。通过RAID校验程序对这个条带做校验,最终确定先掉线的那块硬盘。分析Oracle数据库页在每个磁盘中的分布情况,并根据数据分布的情况获取RAID的条带大小,磁盘顺序及数据走向等RAID的重要信息。根据分析出的RAID信息虚拟重组原始RAID。
4、分析LUN在RAID中的分配情况,以及LUN分配的数据块MAP。将每一个LUN的数据块分布MAP提取出来,北亚企安数据恢复工程师编写程序解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。
02.jpg

5、分析所有导出的LUN,发现所有LUN中均包含HP-Unix的LVM信息。尝试解析每个LUN中的LVM信息,一共发现三个LVM:一个LVM中划分了一个LV,里面存放OA服务器端的数据;一个LVM中划分了一个LV,里面存放临时备份数据;剩余4个LUN组成一个LVM,只划分了一个LV,里面存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序,尝试将所有LVM中的LV都解释出来,但发现解释过程中程序出错。
6、分析程序报错原因,开发工程师debug程序出错的位置。文件系统工程师对恢复出来的LUN做检测后发现存储瘫痪导致LVM信息损坏。尝试人工修复损坏的区域并同步修改程序,重新解析LVM逻辑卷。
7、搭建HP-Unix环境,将解释出来的LV映射到HP-Unix并尝试Mount文件系统,结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复完成后仍然无法挂载文件系统。怀疑vxfs文件系统的部分元数据可能被破坏,需要手工修复。
8、仔细分析解析出来的LV,根据VXFS文件系统的底层结构校验此文件系统是否完整。经过分析发现VXFS文件系统果然存在问题,原来存储瘫痪的时候VXFS文件系统正在执行IO操作,导致部分文件系统元文件损坏。手工修复损坏的元文件,直到能够正常解析VXFS文件系统。再次将修复好的LV挂载到HP-Unix小型机上,尝试Mount文件系统,这回没有报错,成功挂载。
9、在HP-Unix小型机上mount文件系统后,将所有用户数据备份至指定磁盘空间。
部分文件目录截图:
03.jpg

10、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件的完整性,经过检测没有发现问题。再使用北亚企安自主研发的Oracle数据库检测工具进行检测,发现部分数据库文件和日志文件校验不一致。由数据库工程师对此类文件进行修复后再次校验,直到所有数据库文件均通过校验为止。
11、将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix小型机中,尝试启动Oracle数据库,Oracle数据库启动成功。
04.jpg

12、由用户方配合,启动Oracle数据库和OA服务端。通过本地安装的OA客户端数据记录进行验证,并且用户方安排不同部门人员进行远程验证。经过仔细验证,确定恢复出来的数据完整可用,认可本次数据恢复结果。本次数据恢复工作完成。

相关文章
|
2天前
|
存储 SQL 数据挖掘
服务器数据恢复—误删除VMware虚拟机vmdk文件的数据恢复案例
服务器数据恢复环境: 某大厂PS4000服务器,服务器上部署VMware ESXi虚拟化平台。 服务器故障: 机房断电,重启后服务器中的某台虚拟机不能正常启动。管理员查看虚拟机配置文件,发现无法启动的虚拟机的配置文件除了磁盘文件以外其他配置文件全部丢失,xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还存在。联系VMware原厂工程师进行诊断,VMware原厂工程师尝试新建一个虚拟机,但发现存储空间不足,于是将故障虚拟机下的xxx-flat.vmdk磁盘文件删除了。VMware工程师重新建了一个虚拟机,分配了固定大小的虚拟磁盘,为虚拟机安装了Window
服务器数据恢复—误删除VMware虚拟机vmdk文件的数据恢复案例
|
4天前
|
弹性计算 运维 负载均衡
【阿里云弹性计算】阿里云ECS在金融科技中的应用案例:高性能交易系统的构建
【5月更文挑战第27天】阿里云ECS助力某证券公司构建高性能交易系统,满足高并发、高可用和弹性扩展需求。ECS凭借最新处理器技术、高速内存实现高性能计算;支持多地域、多可用区部署保证高可用性;弹性伸缩特性适应业务波动,降低运维成本。通过分布式架构和负载均衡技术,实现交易请求高效处理,确保系统稳定运行。案例证明,阿里云ECS是金融科技领域构建高性能交易系统的理想选择。
24 1
|
1天前
|
弹性计算
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
|
1天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。
|
2天前
|
弹性计算
阿里云ECS的使用心得
本文主要讲述了我是如何了解到ECS,使用ECS的一些经验,以及自己的感悟心得
|
2天前
|
弹性计算 运维 监控
【阿里云弹性计算】ECS实例的生命周期管理:阿里云自动化工具与策略介绍
【5月更文挑战第29天】阿里云提供自动化工具和策略管理ECS实例生命周期,如资源编排服务(ROS)实现一键部署,通过模板定义实例配置;自动化运维服务(OOS)执行自动化运维任务;弹性伸缩策略动态调整实例数量;定时启动/停止策略节省成本;监控告警策略确保业务连续性。通过这些工具和策略,企业可实现ECS实例的高效管理。
14 2
|
2天前
|
弹性计算 运维 监控
【阿里云弹性计算】从物理机到阿里云ECS:企业IT架构转型升级之路
【5月更文挑战第29天】随着云计算兴起,企业正转向阿里云ECS以应对传统物理机的挑战。本文详述了这一转型过程,包括现状评估、迁移计划制定、测试环境搭建、应用数据迁移及后期监控优化。转型升级可提升资源利用率,降低运维成本,加快业务响应,并增强数据安全。示例代码展示了使用阿里云Python SDK创建ECS实例的过程。
21 1
|
2天前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
27 3
|
2天前
|
存储 固态存储 安全
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
阿里云4核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
|
2天前
|
弹性计算
阿里云ECS使用体验
在申请高校学生免费体验阿里云ECS云服务器后的一些使用体验和感受。

相关产品

  • 云服务器 ECS
  • http://www.vxiaotou.com