全站检索
数据交换平台
01

数据交换平台

数据集成概述

数据集成是指把不同来源、格式、特点的数据在逻辑上或物理上有机地集中,从而为业务单元提供全面的数据共享。通过数据集成,可以访问所有分散的数据,可以对核心信息资产进行准确一致的描述,并利用这些资产推进业务决策和运营过程。参考各个行业和业务系统应用场景对数据集成需求重点的不同,把数据集成的应用场景概括为数据同步、数据整合(汇总)、数据迁移和数据交换。

数据集成的需求来源

数据集成作为解决业务机构数据碎片、数据孤岛问题的方案,主要受以下三方面的需求:

1、来自相关政策和法规的需求,例如国家电子政务数据共享体系建设,旨在建立新一代国家级数据资源共享体系,为政务机构、企业以及公众建立统一的标准化信息共享平台。

2、企业竞争带来的需要,例如以中国电信企业为代表,企业只有通过数据集成,在制定策略方针时才能获得全面有效的数据依据,从而在市场竞争中占领先机。

3、企业并购带来的需求,例如以中国制造业企业为代表,并购方在实施并购前不但要获取被购方的详细数据信息作为参考,而且在并购后,还必须通过数据集成将其财务数据、运营数据、客户数据迁移到自己的系统中。

数据集成所面临的问题

中国经过将20多年的信息化建设,不断摸索和经验积累,已进入深化应用的阶段。特别是在最近几年,通过升级原有系统已经不能满足飞速发展的业务需求,为了满足业务的发展需求,出现了大量的新建软件系统。新建软件系统可以快速的使用新技术解决业务难题,而不必受兼顾原有系统的既有功能的制约。但是,众多的新建软件系统会导致数据源分散、异构数据库难以访问、数据接口复杂度增加等问题。美国目前更多的是通过原有系统改造、升级或整合来实现业务需求,新建软件系统的比例则相对较小。然而,中国将面临比美国更加复杂的数据环境。

当前在构建数据集成系统建设中遇到的主要问题有:

l  数据异构性,由于缺乏统一的规划,各种软件系统和异构数据源之间无法实现数据的共享和互联互通,导致了数据的分散、冗余、不完整。

l  网络环境复杂,数据的迁移和交换往往要跨多个网络域,甚至是物理隔离域,缺少集中系统的管理,且网速缓慢,网络中断现象经常发生。

l  需求不断变化,系统基础架构脆弱,缺乏标准的技术规范,需求经常变更导致功能扩展与修改极其困难,增加维护成本。


DataExchange采用面向服务的体系架构,以服务的形式构建数据迁移、交换等数据集成流程。

系统以元数据服务为支撑,基于CWM-XMIW3C-XML Schema规范,提供对传统的数据库、半结构化和非结构化文件数据的支持,以及对分布式存储等新兴技术的支持。

在运维层面上,提供了基于Web的管理与监控工具;

在开发层面上,提供了图形化的配置工具;

在组件层面上,系统提供了数据访问服务、错误处理服务、数据转换与清洗服务、数据传输服务、任务调度服务、元数据管理服务、管理监控服务等服务。

管理与监控

基于Web的监控客户端,提供了完整的系统开发、管理和控制页面,核心功能包括:Dashboard,资源管理,任务监控,历史日志、系统配置五大组成部分。

Dashboard

提供系统运行的整体概览,包括当前系统最新任务运行状态的汇总,数据交换任务持续时间等信息。

监控

提供对数据集成任务的操作,包括任务的运行、状态展现(完成、错误终止、运行中、警告、异常终止)、排队情况、日志查询、执行方式(自动、手动)等信息。

历史

提供对数据集成任务历史日志的查询,包括通过分组、状态、时间段以及根据名称模糊匹配等手段进行细节的过滤。

资源管理

提供对系统资源的管理功能,包括节点、数据源、元数据、映射、任务、主题、计划调度等资源的管理和配置功能。

系统配置

提供对系统的配置,包括用户管理、密码修改、菜单授权、系统变量配置、系统更新等功能。

映射工具

 DataExchange映射工具是创建ETL流程模板的图形化定义工具。其设计旨在使数据集成配置人员能够快捷地定义ETL流程中数据抽取(Extract)、转换(Transform)、加载(Load)过程。

基于Eclipse平台开发的映射工具实现了对ETL过程的图形化定义功能。ETL数据流程定义过程中的复杂性主要集中在数据映射定义和数据转换过程定义两部分工作上。为了降低复杂度,映射工具针对这两部分工作提供了更加便捷的开发模式。工具中包含有三种类型的节点,分别是:抽取节点、转换节点和加载节点,分别对应ETL三个处理步骤。每个节点定义都以树形结构直观地展现了输入和输出,方便用户以拖拽方式随需映射。

ETL工具的主要功能包括:

数据映射定义

通过映射工具可以定义关系数据库之间的数据结构映射关系、关系数据库与XMLExcel、平面数据之间的数据结构映射关系。

转换、清洗过程定义

数据转换是将源数据结构转换为目标数据的关键环节,数据转换是将抽取出来的数据通过一系列的函数、方法转换成目标数据源所需要的格式的过程。映射工具中以控件形式提供了诸如字符串拆分、合并、替换、码表转换、字符截取、统计等等常用的转换控件,用户还可以根据需要通过实现自定义转换添加自定义转换控件。

增量数据抽取定义

增量数据抽取即CDCChange Data Capture)是指在指定时间段内对目标数据源已改变、新增、删除数据的捕获过程,通过映射工具,可以根据实际的业务环境,配置诸如时间戳方式、递增序列方式、标志位方式以及快照方式等增量抽取规则。

系统服务

系统服务是运行在操作系统下的一个系统进程,包括各种资源组件服务,诸如ETL服务、传输服务、任务服务、元数据服务等关键系统服务,并以Web 服务的方式发布数据接口。     

ETL服务负责执行映射模板定义的ETL规则,实现数据抽取、转换、清洗、加载等功能。

对于跨地域分布式环境下的数据交换过程,需要通过传输服务将各个数据源中抽取出来的数据以指定传输方式(HTTPFTP、消息等)发送到目的端。系统提供了稳定的数据传输功能,支持断点续传、错误恢复和过程监控,为动态可视化监控任务的正常运行和错误情况下的处理、恢复运行提供了便捷的途径。

系统任务服务,负责提供对数据集成任务的执行与监控服务接口。

元数据服务,提供了对关系数据库、文件和文档及应用程序中的结构化、半结构化和非结构化数据的元数据模型抽取支持,提供包括元数据模型定义、导入、导出、存取等功能的完整服务。

02

ETL数据集成套件

公司特色服务包括数据抽取、转换、加载ETL工具开发,主数据管理,云原生应用开发,ESB企业总线实施,大数据计算集群监控管理,边缘计算平台构建等。从数据端的采集到计算分析及机器学习模型建立,到最终的业务应用分析全生命周期的大数据云计算应用实施。

03

探索ETL数据集成套件

DataExchange采用面向服务的体系架构,以服务的形式构建数据迁移、交换等数据集成流程。系统以元数据服务为支撑,基于CWM-XMI、W3C-XML Schema规范,提供对传统的数据库、半结构化和非结构化文件数据的支持,以及对分布式存储等新兴技术的支持。

  • 数据仓库建设服务

    数据仓库建设服务

    数据仓库建设服务

    数据中心业务应用系统软件开发,包括:数据仓库基础功能平台(含数据基础平台)、业务应用软件(以运营、维保管理业务为对象,建立活动、客流、生产过程管理等主题数据库及

  • 数据集成治理套件

    数据集成治理套件

    数据集成治理套件

    概述从奥软件公司数据集成软件套件是一系列数据整合产品集合,包含数据采集、数据交换,数据转换清洗、数据质量管理、数据比对、统一数据服务、数据目录平台、应用数据连接

  • 数据目录平台

    数据目录平台

    数据目录平台

    信息资源,特别是政务信息资源,是一个国家信息资源的主要组成部分,它是政府部门在履行管理国家行政事务职责的业务过程中和政务信息化过程中产生的、有利用价值的、数字化

  • 数据转换与清洗

    数据转换与清洗

    数据转换与清洗

    现在,企业所烦恼的不再是数据匮乏,而是无法在正确的时间获得正确的数据。政府机构面临的挑战不再是信息的孤岛,而是对各类数据进行整合。由于组织结构和管理模式等方面的

  • 数据比对系统

    数据比对系统

    数据比对系统

    不断增长的结构化和非结构化数据增加了信息管理的复杂性,同时客户希望在跨异构环境中能更出色地管理数据,企业需要数据高度可用,需要能够不间断地访问数据,同时不会导致

  • 变更数据捕获

    变更数据捕获

    变更数据捕获

    不断增长的结构化和非结构化数据增加了信息管理的复杂性,同时客户希望在跨异构环境中能更出色地管理数据。为了满足用户不断提高的需求,需要改进数据仓库、商业智能和分析

  • 分布式内存数据库

    分布式内存数据库

    分布式内存数据库

    概述 以内存为中心的分布式数据库、缓存和处理平台,用于事务性、分析性和流式工作负载,提供内存速度在PB级规模。为应用和不同的数据源之间提供一个高性能、分布式内存中

04

实施案例介绍

DataExchange采用面向服务的体系架构,以服务的形式构建数据迁移、交换等数据集成流程。系统以元数据服务为支撑,基于CWM-XMI、W3C-XML Schema规范,提供对传统的数据库、半结构化和非结构化文件数据的支持,以及对分布式存储等新兴技术的支持。

05

SSIS数据交换实施

采用微软SQL Server数据库组件SSIS作为ETL工具,实现业务系统数据集成到数仓数据仓库采用SQL Server 2016,部署到本地IDC机房SSIS部署到Azure云端,具有7*24监控机制数据源包括SQL Server, SAP, EXCELPortal导入数据、更新数据、日志管理,软件界面语言中文建设内容包括:SSIS抽取EXCEL数据并分发到业务系统数据库Portal管理建设IDC数据库本机备份,异机备份,云端备份Portal定制开发用户认证与鉴权。SSIS任务管理。通过SSIS应用日志···

查看详情

移动用户行为分析平台

1000万级用户访问用户行为分析:实时采集移动用户的行为数据,如启动程序、会话时长、页面跳转、完成预设任务等。根据行为数据分析用户行为,向移动应用运营商提供用户运营支撑服务。移动广告投放效果分析:从移动广告的链接展示开始,记录链接点击、谷歌商店下载、应用安装等一系列行为,以此计算移动广告投放转化率,为移动广告供应链提供广告投放效果分析服务。整合移动广告投放效果分析与用户行为分析,建立移动用户全生命周期···

查看详情

大数据智能仓储平台

一套提供生产制造信息化、自动化、智能化的软硬件整体解决方案,系统基于大数据文本分析技术、分类聚类算法、TensorFlow深度学习框架而构建的智能化仓储管理系统。通过自动仓储、自动搬运、自动化生产设备、自动化检测设备与信息化软件进行集成,对整个生产过程实现数据采集、过程监控、TPM设备管理、质量管理、生产调度以及数据统计分析,从而实现生产现场的信息化、智能化和柔性化的智能制造管理。包括智能补货预测,智能调拨分···

查看详情

企业财报自动抓取系统

一套做数据抓取入数据库,实现计算的决策引擎工具,业务人员可以自由条件判断组合计算,主要包含四大模块:1)财报辨伪评分 2)流水交叉核验 3)其它交叉核验 4)企业财务行 为评分,最终返回评分和风险提示到系统界面供客户参考。1、 登录查询界面PC 端 后台通过邮箱号或手机号等生成账号,交由客户自己安装,远程控制客户软件使用次数或时间权限。 页面分为两大类:上市公司&非上市公司上市公司——客户输入需查询企业的股票···

查看详情

移动追溯防窜货系统

一套软件系统通过扫码追溯产品流通渠道地域等信息。系统承载方式为微信公众号或者手机直接进入H5页面登录使用。系统包括公众号后台管理系统、公众号前端H5页面和数据导出解析模块三个主要模块。后台管理系统:管理员登录工作人员登录鉴权工作人员用户管理经销商信息导入经销商信息可以批量增量导入,第一次对经销商扫码时工作人员也可以通过H5页面录入经销商信息,第二次之后直接选择现有经销商;工作人员扫码使用前需要登录,后台···

查看详情