kettle学习笔记(六)——kettle转换步骤
时间:2022-07-24
本文章向大家介绍kettle学习笔记(六)——kettle转换步骤,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
一、概述
转换步骤分类:
1. 增加新的列
2. 字符串处理
3. 行列变换
4. 排序/排重/字段选择
5. 其他转换步骤
二、增加新的列
1.增加常量列
增加一列常量的列
其它增加列的操作大同小异,不一一赘述,只介绍计算器
1. 增加常量列
2. 增加序列列
3. 增加分组序列列
4. 增加校验列
5. 增加XML 列
6. 计算器
2.计算器
可以进行数值运算、日期运算等...
更多计算类型的介绍,参见wiki
三、字符串处理
1.字符串拆分
1.同Java的indexOf,左闭右开的形式
2.将一个字段拆分为多个字段,注意配置拆分后接收的字段
3.拆分成多行
类似上面,不过拆分成多行是这样的结果:
2.字符串合并
3.字符串替换
值映射:对数值进行映射,例如经典的性别1 0映射为男 女:
正则匹配:
4.字符串其它转换
字符串操作:
可以进行字符串转义(例如> 转义为 >)、保留/去除字符串里的数字、移除特殊字符、补充长度
四、行列变换
图示如下:(也叫正规化-列转行-宽表变窄表/ 反正规化-行转列-窄表变宽表)
示例如下:
窄表变宽表的配置:注意理解分组字段的含义
行转列,参考:https://www.cnblogs.com/OliverQin/p/5871330.html
五、排序/去重/字段选择
1.排序
2.排重
Unique Row: 需要事先排序:
Unique Row(Hash): 不排序,速度快,占内存。
- 【设计模式】—— 中介者模式Mediator
- 【设计模式】—— 迭代模式Iterator
- 【设计模式】—— 解释器模式Interpret
- 【设计模式】—— 命令模式Commond
- 【设计模式】—— 职责链模式ChainOfResponsibility
- 【设计模式】—— 代理模式Proxy
- 【设计模式】—— 享元模式Flyweight
- 【设计模式】—— 外观模式Facade
- 【设计模式】—— 装饰模式Decorator
- 【设计模式】—— 组合模式Composite
- 【设计模式】—— 桥接模式Bridge
- 【插件开发】—— 1 Eclipse插件开发导盲
- 【插件开发】—— 4 SWT编程须知
- 【插件开发】—— 5 SWT控件以及布局使用
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 5分钟学linux命令之split
- 分母为0一定会抛异常吗?
- 明明有class为什么还是报ClassNotFoundException?
- Maven 错误找不到符号
- 环境变量配置为jdk8,却显示java版本为jdk7
- Python脚本按照当前日期创建多级目录
- linux常用的读取文件内容指令
- Executors.newSingleThreadScheduledExecutor();线程池中放入多个线程问题
- SqlServer批量删除表
- java 获取一天内crontab任务执行的时间点
- Python自学成才之路 魔术方法之一元,二元运算符
- Python自学成才之路 魔术方法之打印对象实例
- Python自学成才之路 装饰器必用的wraps注解
- Python自学成才之路 使用函数作为装饰器
- Python自学成才之路 装饰器编程之初试装饰器