从奥软件(上海)有限公司

数据集成概述

数据集成是指把不同来源、格式、特点的数据在逻辑上或物理上有机地集中,从而为业务单元提供全面的数据共享。通过数据集成,可以访问所有分散的数据,可以对核心信息资产进行准确一致的描述,并利用这些资产推进业务决策和运营过程。参考各个行业和业务系统应用场景对数据集成需求重点的不同,把数据集成的应用场景概括为数据同步、数据整合(汇总)、数据迁移和数据交换。

数据集成的需求来源

数据集成作为解决业务机构数据碎片、数据孤岛问题的方案,主要受以下三方面的需求:

1、来自相关政策和法规的需求,例如国家电子政务数据共享体系建设,旨在建立新一代国家级数据资源共享体系,为政务机构、企业以及公众建立统一的标准化信息共享平台。

2、企业竞争带来的需要,例如以中国电信企业为代表,企业只有通过数据集成,在制定策略方针时才能获得全面有效的数据依据,从而在市场竞争中占领先机。

3、企业并购带来的需求,例如以中国制造业企业为代表,并购方在实施并购前不但要获取被购方的详细数据信息作为参考,而且在并购后,还必须通过数据集成将其财务数据、运营数据、客户数据迁移到自己的系统中。

数据集成所面临的问题

中国经过将20多年的信息化建设,不断摸索和经验积累,已进入深化应用的阶段。特别是在最近几年,通过升级原有系统已经不能满足飞速发展的业务需求,为了满足业务的发展需求,出现了大量的新建软件系统。新建软件系统可以快速的使用新技术解决业务难题,而不必受兼顾原有系统的既有功能的制约。但是,众多的新建软件系统会导致数据源分散、异构数据库难以访问、数据接口复杂度增加等问题。美国目前更多的是通过原有系统改造、升级或整合来实现业务需求,新建软件系统的比例则相对较小。然而,中国将面临比美国更加复杂的数据环境。

当前在构建数据集成系统建设中遇到的主要问题有:

l  数据异构性,由于缺乏统一的规划,各种软件系统和异构数据源之间无法实现数据的共享和互联互通,导致了数据的分散、冗余、不完整。

l  网络环境复杂,数据的迁移和交换往往要跨多个网络域,甚至是物理隔离域,缺少集中系统的管理,且网速缓慢,网络中断现象经常发生。

l  需求不断变化,系统基础架构脆弱,缺乏标准的技术规范,需求经常变更导致功能扩展与修改极其困难,增加维护成本。


DataExchange采用面向服务的体系架构,以服务的形式构建数据迁移、交换等数据集成流程。

系统以元数据服务为支撑,基于CWM-XMIW3C-XML Schema规范,提供对传统的数据库、半结构化和非结构化文件数据的支持,以及对分布式存储等新兴技术的支持。

在运维层面上,提供了基于Web的管理与监控工具;

在开发层面上,提供了图形化的配置工具;

在组件层面上,系统提供了数据访问服务、错误处理服务、数据转换与清洗服务、数据传输服务、任务调度服务、元数据管理服务、管理监控服务等服务。

管理与监控

基于Web的监控客户端,提供了完整的系统开发、管理和控制页面,核心功能包括:Dashboard,资源管理,任务监控,历史日志、系统配置五大组成部分。

Dashboard

提供系统运行的整体概览,包括当前系统最新任务运行状态的汇总,数据交换任务持续时间等信息。

监控

提供对数据集成任务的操作,包括任务的运行、状态展现(完成、错误终止、运行中、警告、异常终止)、排队情况、日志查询、执行方式(自动、手动)等信息。

历史

提供对数据集成任务历史日志的查询,包括通过分组、状态、时间段以及根据名称模糊匹配等手段进行细节的过滤。

资源管理

提供对系统资源的管理功能,包括节点、数据源、元数据、映射、任务、主题、计划调度等资源的管理和配置功能。

系统配置

提供对系统的配置,包括用户管理、密码修改、菜单授权、系统变量配置、系统更新等功能。

映射工具

 DataExchange映射工具是创建ETL流程模板的图形化定义工具。其设计旨在使数据集成配置人员能够快捷地定义ETL流程中数据抽取(Extract)、转换(Transform)、加载(Load)过程。

基于Eclipse平台开发的映射工具实现了对ETL过程的图形化定义功能。ETL数据流程定义过程中的复杂性主要集中在数据映射定义和数据转换过程定义两部分工作上。为了降低复杂度,映射工具针对这两部分工作提供了更加便捷的开发模式。工具中包含有三种类型的节点,分别是:抽取节点、转换节点和加载节点,分别对应ETL三个处理步骤。每个节点定义都以树形结构直观地展现了输入和输出,方便用户以拖拽方式随需映射。

ETL工具的主要功能包括:

数据映射定义

通过映射工具可以定义关系数据库之间的数据结构映射关系、关系数据库与XMLExcel、平面数据之间的数据结构映射关系。

转换、清洗过程定义

数据转换是将源数据结构转换为目标数据的关键环节,数据转换是将抽取出来的数据通过一系列的函数、方法转换成目标数据源所需要的格式的过程。映射工具中以控件形式提供了诸如字符串拆分、合并、替换、码表转换、字符截取、统计等等常用的转换控件,用户还可以根据需要通过实现自定义转换添加自定义转换控件。

增量数据抽取定义

增量数据抽取即CDCChange Data Capture)是指在指定时间段内对目标数据源已改变、新增、删除数据的捕获过程,通过映射工具,可以根据实际的业务环境,配置诸如时间戳方式、递增序列方式、标志位方式以及快照方式等增量抽取规则。

系统服务

系统服务是运行在操作系统下的一个系统进程,包括各种资源组件服务,诸如ETL服务、传输服务、任务服务、元数据服务等关键系统服务,并以Web 服务的方式发布数据接口。     

ETL服务负责执行映射模板定义的ETL规则,实现数据抽取、转换、清洗、加载等功能。

对于跨地域分布式环境下的数据交换过程,需要通过传输服务将各个数据源中抽取出来的数据以指定传输方式(HTTPFTP、消息等)发送到目的端。系统提供了稳定的数据传输功能,支持断点续传、错误恢复和过程监控,为动态可视化监控任务的正常运行和错误情况下的处理、恢复运行提供了便捷的途径。

系统任务服务,负责提供对数据集成任务的执行与监控服务接口。

元数据服务,提供了对关系数据库、文件和文档及应用程序中的结构化、半结构化和非结构化数据的元数据模型抽取支持,提供包括元数据模型定义、导入、导出、存取等功能的完整服务。

Bigdata& Cloud Solutions

探索ETL数据集成套件

云计算与大数据

数据交换清洗转换套件

CaSoft Data Integration 数据集成套件( CaSoft DI套件),是一系列数据整合产品集合,包含数据采集、数据交换,数据转换清···

云计算与大数据

数据仓库建设服务

数据中心业务应用系统软件开发,包括:数据仓库基础功能平台(含数据基础平台)、业务应用软件(以运营、维保管理业务为对象,建···

云计算与大数据

分布式内存计算套件

以内存为中心的分布式数据库、缓存和处理平台,用于事务性、分析性和流式工作负载,提供内存速度在PB级规模。为应用和不同···

云计算与大数据

数据目录平台

信息资源,特别是政务信息资源,是一个国家信息资源的主要组成部分,它是政府部门在履行管理国家行政事务职责的业务过程中和政务···

云计算与大数据

数据转换与清洗

现在,企业所烦恼的不再是数据匮乏,而是无法在正确的时间获得正确的数据。政府机构面临的挑战不再是信息的孤岛,而是对各类数据···

云计算与大数据

数据比对系统

不断增长的结构化和非结构化数据增加了信息管理的复杂性,同时客户希望在跨异构环境中能更出色地管理数据,企业需要数据高度可用···

云计算与大数据

变更数据捕获

不断增长的结构化和非结构化数据增加了信息管理的复杂性,同时客户希望在跨异构环境中能更出色地管理数据。为了满足用户不断提高···

OUR CLIENTS

合作伙伴

50+

超过50+大型客户

100+

超过100+个上线项目

30+

超过30+战略合作伙伴

80+

超过80+套解决方案
accommate
NUSKIN China
MERCK
NOVURA
AT&T
东方明珠
EMERSON
中国电信
中国工商银行
上海交通大学
西装定制公司
中信保诚
东方体育中心
华为中国公司
ABB
call to action

数据交换平台案例

contact

与我们取得联系!

联系电话

售前咨询

18018519600(微信)

ca@congao.com.cn

通信地址

上海市闵行区集心路268号前瞻科技LAB 1层

邮编:201100

电话:021-54299131

售前微信