# 数据加工介绍
数据加工(也叫ETL,英文Extract-Transform-Load的缩写)是将业务系统中已存在的数据抽取(extract)、转换(transform)、加载(load)至数据仓库的过程。
SuccBI提供了图形化的自助式数据加工,通过简单的、拖拽式的可视化操作,业务用户也能轻松的完成数据的处理加工。
# 所见即所得加工数据
SuccBI提供了图形化的数据加工设计器,降低项目实施中的数据加工技术门槛,同时让业务用户可以自助加工数据,摆脱对IT部门的依赖。
- 简单易用
- 无需DBA、SQL技能,可视化拖拉拽操作
- 拖拉拽操作,每次操作都能看到结果
- 支持Undo、Redo
- 普通的实施工程师也能建模
- 项目实施过程无需大量的数据库工程师
- 实施工程师更多关注业务本身
- 业务用户自助加工数据
- 摆脱对IT部门的依赖
- 激活业务用户使用数据的热情
# 全方位洞察加工数据
SuccBI的数据加工提供了多种协同视图,让你在任何加工步骤都能及时观察和掌控数据处理流程、输出结果数据、输出字段情况、加工SQL逻辑。
- 加工流程视图
- 图形化展示,加工过程一目了然
- 任意切换节点,轻松来回调试
- 数据列表视图
- 查看节点输出的字段和数据,可快速搜索定位字段
- 自动将编码转为文本,用业务话的语言展示数据
- 字段列表视图
- 可查看、编辑节点字段的属性,包括字段的类型、长度、关联表、默认值等
- 快速查看维度和度量的数目
- SQL逻辑视图
- 预览运行在数据库上的加工SQL逻辑,便于理解和定位数据问题
# 轻松加工异构数据
SuccBI支持超过25种类型的数据源连接,包括常用的关系型数据库,国产数据库,大数据,及Excel、csv、xml等数据文件,打通数据孤岛,将分散在不同类型数据库和文件的数据快速连接、探查、加工、建模。
- 对用户透明
- 不必关心数据来自哪个库
- 也不必关系数据是否在文件上
- 位于不同库、不同文件的数据可自由关联加工
- 智能数据关联算法
- 自动切换InDB与InMem
- 高效率的、并发的流式数据迁移算法
- 条件下沉,只获取需要用到的数据
# 丰富的数据加工组件
数据加工提供经过精心设计的、丰富的加工组件,可以满足绝大部分加工需求,同时支持第三方扩展。
- 丰富的内置加工组件
- 关联(Join)、联合(union)、更新(update)、汇总、去重、行转列、列转行等
- 大量常用的列加工功能:拆分字段、大小写转换、删除标点、字母、特殊字符、提取数字、文本转ID等
- SQL和脚本组件可以实现任意位置需求
- 第三方扩展新的加工组件
- 第三方开发者可以使用扩展开发功能实现新的加工组件
- 普通用户使用时扩展组件和产品内置组件没有任何区别
# 实时预览加工结果
数据加工支持在任意节点或步骤预览结果数据,无论你是创建计算字段、添加加工节点、修改字段类型、关联、汇总等,所做任何操作都可以在数据列表中立即查看到操作后的结果。
- 便捷调试
- 所有组件节点都能直接查看加工步骤的结果数据,无需使用SQL调试中间结果
- 随时修改,随时预览数据
- 极速预览
- 支持多种采样方式,百万、千万级别的数据也能极速预览
# 字段级血统追溯,掌握企业数据脉络
SuccBI的数据加工支持字段级别的血统追溯,你能够迅速洞察加工流程中数据的来龙去脉,掌控数据的影响范围,帮助你发现、管理和解决数据问题。
- 追查数据的最源头
- 了解数据从何而来
- 了解数据的最新状态
- 掌握数据的影响范围
- 数据发生修改和变化将会影响那些其他数据和分析结果
- 简单易用
- 无需IT部门协助
- 无需管理员在后台执行SQL
# 集成六大性能优化策略
结合10年以上的数据仓库建设实施经验,提炼一线项目的优化策略,SuccBI的数据加工中集成了六大性能优化策略,高效提升加工与分析查询性能。
- 简单易用
- 通过可视化的UI配置即可完成,无需写数据库SQL
- 屏蔽数据库层的差异,减少对不同类型数据库DBA的需求
- 多维度、智能
- 除了传统的数据库层优化,还可以进行模型层、数据架构层的优化
- 聚集、子集等支持自动导航,无需应用做任何修改
# 无人值守智能调度
SuccBI的数据加工从加工源头记录了字段级别的数据血统,理解数据脉络,智能调度数据。
- 减轻IT部门和实施人员负担
- 成千上万模型的调度非常复杂
- “理解”数据血统,智能安排调度
- 缩短调度时间窗口
- 智能并发调度
- “关键且阻塞”的数据优先调度
- 可视化监控
- 可视化效果查看调度过程
- 发现错误可自动通知运维人员
# 一站式建设企业级数据仓库
SuccBI的数据加工是基于元数据的架构之上进行管理,融合了数据加工、模型管理等能力,简化数据仓库管理,支持分级数据仓库管理,使业务用户自助管理数据仓库成为可能。
- 简化数据仓库管理
- 加工数据的过程中已经完成了数据建模、元数据管理、调度策略等
- 做到自助数据仓库管理
- 支持分级数据仓库管理
- 支持个人、部门、中央3级数据仓库管理
- 个人模型只是个人使用
- 部门模型部门内部使用
- 中央数据仓库共集团共用
- 每级数据仓库可以各自分散管理,不必都依赖IT部门