全站检索
数据转换与清洗
01

数据转换与清洗

现在,企业所烦恼的不再是数据匮乏,而是无法在正确的时间获得正确的数据。政府机构面临的挑战不再是信息的孤岛,而是对各类数据进行整合。

由于组织结构和管理模式等方面的原因,不同职能部门间在过去都是分别独立建立系统,缺乏统一的协调和规划,往往只从具体业务出发,实现手工作业到电子化的转变,很少考虑系统间的信息的整合与共享,导致系统数量多,异构化,数据量大、复杂性大,数据的分散、冗余、不完整。

数据整合的核心内容是数据的标准化处理,也称为数据的转换与清洗,从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程。在DataIntegration数据集成工具套件中,DataTransform 为整个 ETL 过程提供了一个完整的设计与运行环境。

DataTransform为具备高可扩展性与高性能的企业数据集成软件确立了标准。通过单一方式访问、转换、清洗和加载数据,适用于数据仓库、数据迁移等应用场景。该软件的高可扩展性可以支持海量数据并满足企业对安全和性能的需求。

内置大量数据转换模型,遵从国际化标准以及国家众多行业标准,几十种通用的转换规则如类型转换、字段拆分、字段合并、字符串处理、日期转换、算术运算、码表转换等,同时提供自定义转换接口实现特殊的数据转换处理。

异构数据源整合,

支持主流的关系型数据库(Oracle/DB2/SQLServer/MySQL等)、XML文档、文本数据、Excel、Hbase、以及WebService等接口,支持灵活的扩展新的数据源

图形化映射工具

提供创建数据转换流程的图形化配置工具,使数据集成配置人员能够快捷地定义数据转换流程中数据抽取(Extract)、转换(Transform)、加载(Load)过程。

多样化数据转换

如类型转换、字段拆分、字段合并、字符串处理、日期转换、算术运算、码表转换等,同时提供自定义转换接口实现特殊的数据转换处理。

分布式并行运行

支持多个无关联任务并行执行,并且可以在监控页面统一进行任务运行状态的查看、管理

异常自动恢复

通过日志、事务、故障处理等手段,保证系统运行的可靠性,以及业务过程的安全性,出现错误时,可以恢复运行,支持断点续传

Web方式管理监控

提供完全基于浏览器方式的图形化任务流程配置和监控,更直观的展现数据流转情况,无需安装客户端,可以在任意可连同服务器的网络环境下配置和使用。


02

ETL数据集成套件

公司特色服务包括数据抽取、转换、加载ETL工具开发,主数据管理,云原生应用开发,ESB企业总线实施,大数据计算集群监控管理,边缘计算平台构建等。从数据端的采集到计算分析及机器学习模型建立,到最终的业务应用分析全生命周期的大数据云计算应用实施。

03

探索ETL数据集成套件

数据整合的核心内容是数据的标准化处理,也称为数据的转换与清洗,从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程。在DataIntegration数据集成工具套件中,DataTransform 为整个 ETL 过程提供了一个完整的设计与运行环境。DataTransform为具备高可扩展性与高性能的企业数据集成软件确立了标准。通过单一方式访问、转换、清洗和加载数据,适用于数据仓库、数据迁移等应用场景。该软件的高可扩展性可以支持海量数据并满足企业对安全和性能的需求。

  • 数据仓库建设服务

    数据仓库建设服务

    数据仓库建设服务

    数据中心业务应用系统软件开发,包括:数据仓库基础功能平台(含数据基础平台)、业务应用软件(以运营、维保管理业务为对象,建立活动、客流、生产过程管理等主题数据库及

  • 数据集成治理套件

    数据集成治理套件

    数据集成治理套件

    概述从奥软件公司数据集成软件套件是一系列数据整合产品集合,包含数据采集、数据交换,数据转换清洗、数据质量管理、数据比对、统一数据服务、数据目录平台、应用数据连接

  • 数据目录平台

    数据目录平台

    数据目录平台

    信息资源,特别是政务信息资源,是一个国家信息资源的主要组成部分,它是政府部门在履行管理国家行政事务职责的业务过程中和政务信息化过程中产生的、有利用价值的、数字化

  • 数据交换平台

    数据交换平台

    数据交换平台

    数据集成概述数据集成是指把不同来源、格式、特点的数据在逻辑上或物理上有机地集中,从而为业务单元提供全面的数据共享。通过数据集成,可以访问所有分散的数据,可以对核

  • 数据比对系统

    数据比对系统

    数据比对系统

    不断增长的结构化和非结构化数据增加了信息管理的复杂性,同时客户希望在跨异构环境中能更出色地管理数据,企业需要数据高度可用,需要能够不间断地访问数据,同时不会导致

  • 变更数据捕获

    变更数据捕获

    变更数据捕获

    不断增长的结构化和非结构化数据增加了信息管理的复杂性,同时客户希望在跨异构环境中能更出色地管理数据。为了满足用户不断提高的需求,需要改进数据仓库、商业智能和分析

  • 分布式内存数据库

    分布式内存数据库

    分布式内存数据库

    概述 以内存为中心的分布式数据库、缓存和处理平台,用于事务性、分析性和流式工作负载,提供内存速度在PB级规模。为应用和不同的数据源之间提供一个高性能、分布式内存中

04

实施案例介绍

数据整合的核心内容是数据的标准化处理,也称为数据的转换与清洗,从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程。在DataIntegration数据集成工具套件中,DataTransform 为整个 ETL 过程提供了一个完整的设计与运行环境。DataTransform为具备高可扩展性与高性能的企业数据集成软件确立了标准。通过单一方式访问、转换、清洗和加载数据,适用于数据仓库、数据迁移等应用场景。该软件的高可扩展性可以支持海量数据并满足企业对安全和性能的需求。

05

SSIS数据交换实施

采用微软SQL Server数据库组件SSIS作为ETL工具,实现业务系统数据集成到数仓数据仓库采用SQL Server 2016,部署到本地IDC机房SSIS部署到Azure云端,具有7*24监控机制数据源包括SQL Server, SAP, EXCELPortal导入数据、更新数据、日志管理,软件界面语言中文建设内容包括:SSIS抽取EXCEL数据并分发到业务系统数据库Portal管理建设IDC数据库本机备份,异机备份,云端备份Portal定制开发用户认证与鉴权。SSIS任务管理。通过SSIS应用日志···

查看详情

移动用户行为分析平台

1000万级用户访问用户行为分析:实时采集移动用户的行为数据,如启动程序、会话时长、页面跳转、完成预设任务等。根据行为数据分析用户行为,向移动应用运营商提供用户运营支撑服务。移动广告投放效果分析:从移动广告的链接展示开始,记录链接点击、谷歌商店下载、应用安装等一系列行为,以此计算移动广告投放转化率,为移动广告供应链提供广告投放效果分析服务。整合移动广告投放效果分析与用户行为分析,建立移动用户全生命周期···

查看详情

大数据智能仓储平台

一套提供生产制造信息化、自动化、智能化的软硬件整体解决方案,系统基于大数据文本分析技术、分类聚类算法、TensorFlow深度学习框架而构建的智能化仓储管理系统。通过自动仓储、自动搬运、自动化生产设备、自动化检测设备与信息化软件进行集成,对整个生产过程实现数据采集、过程监控、TPM设备管理、质量管理、生产调度以及数据统计分析,从而实现生产现场的信息化、智能化和柔性化的智能制造管理。包括智能补货预测,智能调拨分析···

查看详情

企业财报自动抓取系统

一套做数据抓取入数据库,实现计算的决策引擎工具,业务人员可以自由条件判断组合计算,主要包含四大模块:1)财报辨伪评分 2)流水交叉核验 3)其它交叉核验 4)企业财务行 为评分,最终返回评分和风险提示到系统界面供客户参考。1、 登录查询界面PC 端 后台通过邮箱号或手机号等生成账号,交由客户自己安装,远程控制客户软件使用次数或时间权限。 页面分为两大类:上市公司&非上市公司上市公司——客户输入需查询企业的股票···

查看详情

移动追溯防窜货系统

一套软件系统通过扫码追溯产品流通渠道地域等信息。系统承载方式为微信公众号或者手机直接进入H5页面登录使用。系统包括公众号后台管理系统、公众号前端H5页面和数据导出解析模块三个主要模块。后台管理系统:管理员登录工作人员登录鉴权工作人员用户管理经销商信息导入经销商信息可以批量增量导入,第一次对经销商扫码时工作人员也可以通过H5页面录入经销商信息,第二次之后直接选择现有经销商;工作人员扫码使用前需要登录,后台···

查看详情