数仓容灾备份方案

数仓容灾备份方案

技术开发 编程 技术框架 技术发展

 

数仓容灾备份方案

建立一个数据备份平台;支持异构的服务器平台与存储设备;支持主流的操作系统,例如HP-UX,IBM AIX,Sun Solaris和Windows2003系统等,支持主流的数据库,例如Oracle, SQL SERVER,DB2,MYSQL等。

1.       支持Oracle数据库(包括其它主流数据库如SQL SERVER,DB2,MYSQL等)的在线备份,支持全备份、增量备份以及累计增量备份等类型。可实现可靠、开放、自动、快速、实时、易扩展的数据备份。

2.       具有充分的扩展性,包括磁带扩容、新客户端添加、新带库添加。

3.       支持多台服务器的并行数据备份。

4.       备份软件应能对备份系统集中管理,统一管理备份设备、备份介质和备份或恢复任务,能统一定义管理备份策略和恢复策略。操作界面友善。备份软件应支持图形操作界面和命令行操作界面两种方式,且支持远程操作。应能方便直观地进行备份策略的定义、进行备份设备、备份任务的监控、了解备份介质的使用状况等。系统安装、操作简单。

根据南车电气目前数据仓库系统的技术架构以及备份需求,我们需要备份的项目如下,在实际中根据用户需求可能进一步调整:

类型

备份项目

备份方案

数据库

ODS数据库数据

每周一次全量,每天增量

数据仓库数据

每周一次全量,每天增量

数据集市数据

每周一次全量,每天增量

BOE平台资料库

增加报表等操作后全量备份

文件目录

BOE File store

增加报表等操作后全量备份

应用服务器安装配置

安装或调整配置后全量备份

BW安装配置

安装或调整配置后全量备份

所有服务器操作系统

软件安装或系统升级后全量备份

 

1.1.1.  备份策略的定义

一个好的备份系统,除了需要配备有好的软硬件产品之外,更需要有良好的备份策略和管理规划来进行保证。备份策略的选择,要统筹考虑需备份的总数据量,线路带宽、数据吞吐量、时间窗口以及对恢复时间的要求等因素。

目前的备份类型主要有全量备份、增量备份和差异备份:

²  全备份:每次备份定义的所有数据,优点是恢复快,缺点是备份数据量大,数据多时可能做一次全备份需很长时间;

²  增量备份:备份自上一次备份以来更新的所有数据,其优点是每次备份的数据量少,缺点是恢复时需要全备份及多份增量备份;

²  差异备份:备份自上一次全备份以来更新的所有数据,其优缺点介于上两者之间。

1.1.2.  备份窗口的选择

所谓备份窗口,是指每次备份的间隔时间,这主要取决于每次备份间隔能够容忍丢失的数据量、每次备份的数据量和备份的速度。理论上,备份的间隔越短越好,但每次备份总需一定的时间,而且备份总会或多或少地影响系统的正常处理性能。因而,对一些关键数据,可预先定义备份窗口大小,再根据备份数据量计算所需的备份速度,若备份速度不能满足要求,则可考虑使用更快速的带库或增加带库上的驱动器数量。

1.1.3.  灾难恢复的策略

备份的目的是为了防止在异常事故下的数据丢失,一旦运行数据发生问题,如何从备份介质中恢复出最当前的数据,才是我们真正关心的问题。我们不希望灾难发生,也不希望任何故障出现。然而灾难的出现往往是突然的、预先不可知的。所以我们应有一套应付各种灾难情况下的灾难恢复解决方案,以备不时之需。经过对系统的初步运行环境分析,归纳出以下有可能会出现的几种情况,并提出了相应的解决措施。

情况一:主机数据磁盘故障(非系统盘)

若数据盘使用了RAID1、RAID5等技术,则应该可直接热替换硬盘;若数据盘已不能访问,则需先修好物理盘,然后从备份介质恢复数据。

情况二:主机物理损坏

替换主机,使用原来的系统盘或数据盘;若不使用原来的系统盘或数据盘,则可以通过备份系统的灾难恢复功能恢复操作系统,然后恢复数据。

情况三:系统盘物理损坏

替换系统盘,则可以通过备份系统的灾难恢复功能恢复操作系统。

情况四:操作系统不能启动

直接通过备份系统的灾难恢复功能恢复操作系统。

情况五:磁盘上数据损坏(如由于人为失误、病毒或黑客攻击)

磁盘数据可能包括以下类型:BOE FILESTORE,DI安装配置文件,BW安装配置文件,BOE安装配置文件,ORACLE安装配置文件等,首先考虑通过相在产品的技术来恢复文件,如果不能解决,通过备份介质上的数据备份恢复数据。

情况六:数据库数据丢失(如由于人为失误、数据块损坏等)

本项目中数据库有以下几类:ODS数据库,数据集市数据据,数据仓库数据库,ETL资料库,BOE资料库。如出现以上情况时,首先考虑通过Oracle数据库本身的技术如flashback来恢复丢失的数据,如果不能解决,需要通过从备份介质进行恢复处理。

情况七:整个数据中心灾难

所谓数据中心灾难,是指一些特殊情况发生时,数据中心的主机系统的存放在磁盘上的数据,以及备份带库中的备份介质上的数据均遭损坏。此时,若没有很好的容灾解决方法,就可能导致严重的后果。

技术开发 编程 技术框架 技术发展