# 列加工
列加工提供了简单的数据加工方式,对表中的指定的列进行数据的清洗(如提取数字、转大写)、转换、拆分、替换或文字转ID等操作,如图是一个简单的列加工节点示例:
# 使用列加工
当数据需要进行清洗加工时,可以点击节点后面的+号,选择菜单栏中的列加工,此时即新增了一个列加工节点,在列加工节点下,可对数据列进行不同的列加工操作
列加工操作可分为3类:
# 替换
将字段里面的部分内容替换为指定内容。如将性别字段内所有的female
替换为女
,将所有的male
替换为男
。
将指标内的字符串地区生产总值(亿元)
,替换为A00
操作步骤
- 右键点击需要进行加工的列,选择替换,跳出替换弹窗
- 在字符串栏里输入被替换字符串
地区生产总值(亿元)
,在替换为栏里输入替换字符串A00
,点击确认按钮,完成替换操作 - 在左侧的列加工步骤里可以看到新增了一条替换操作记录
# 拆分
将数据表中的某一列按照指定分隔符拆分成N列。如销售单位列里的数据为单位代码_单位名称
(111018_常青花园店),我们可以按照分隔符_
进行拆分,将销售单位拆分为单位代码和单位名称两列
将字段【CHORGNAME】列按照分隔符_
进行拆分
操作步骤
- 右键点击需要进行加工的字段列,如【CHORGNAME】,选择拆分,弹出拆分会话框:
- 在分隔符栏里输入进行拆分的分割符号
_
, - 拆分策略选择全部
- 默认选择拆分为多列
- 在分隔符栏里输入进行拆分的分割符号
- 点击确定按钮,字段【CHORGNAME】即被拆分为多个字段,在左侧的属性面板中同时新增了一条列加工步骤拆分
# 清洗
清洗掉某列数据中不需要的字符,如清洗空数据、截取字符、提取数字等
将年份字段如2017年
截取前4位,形成新的字段年份2017
操作步骤
- 右键点击需要进行加工的字段列,选择拆清洗,选择具体的清洗操作,如【转为大写】
- 完成具体的清洗操作之后,在左侧的属性面板中同时新增了一条列加工步骤,名称与具体清洗操作相对应
# 数据清洗操作
清洗的操作有11个:
- 转为小写:将该列的大写字母字符全部转化为小写字母
- 转为大写:将该列的小写字母字符全部转化为大写字母
- 删除空格:删除该列数据中指定位置的空格
- 删除数字:删除该列数据中包含的所有数字字符
- 删除字母:删除该列数据中包含的所有字母字符
- 删除标点:删除该列数据中包含的所有标点符号
- 删除特殊字符:删除指定的特殊字符
- 排除空数据:排除该列数据中存在的所有空数据
- 提取数字:将该列数据中的数字字符提取出来,替换该列原来的数据
- 截取字符:截取该列数据指定位置的字符串,替换该列原来的数据,截取弹框里可以设置截取位置
- 文本转ID:将文本转化成文本对应的ID,详情可参考文档文本转ID
# 列加工步骤列表
列加工的所有操作记录都被记录在数据表左侧的列加工步骤列表里。列加工步骤列表里还提供了列加工步骤编辑和删除操作。
0条评论
评论