Kettle使用时间戳抽取数据总结

时间:2019-02-20
本文章向大家介绍Kettle使用时间戳抽取数据总结,主要包括Kettle使用时间戳抽取数据总结使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

        日常使用Kettle的spoon来ETL数据,经过一段时间的使用,下面总结一下。

        目标库是我的数据库,源库是外部提供的数据库。

1.在目标库建立时间中间表,包括三个字段:id, current_load_time,  last_load_time,中间表用于衡量数据更新的标准,需要提前写入一条记录;

2.在源库获取建表语句,在目标库建立同样的表,包括注释等等;

3.以上就在目标表建立两个表:时间中间表和需要同步的表。

4.下面在spoon建立三个转换,一个作业;前提准备工作是在spoon中建立了DB连接,并共享出来,避免以后每次都要建立连接。建议使用JNDI连接。

5.转换一(初始化时间):获取系统时间(systemdatetime)(可变),写入时间中间表的current_load_time。

6.转换二(同步数据):输入时间中间表,用current_load_time和last_load_time作为条件,select源表的数据,插入/更新到目标表。

7.转换三(更新时间中间表):把current_load_time的值写入last_load_time,为下一次的更新做准备。

8.建立一个作业,包括一个start和上面的三个转换。先直接运行一次作业,看看整个流程是否正常。设置start让它按时间重复运转。

 

        以上是最基本和最简单的同步模型。