数据清理的遗留问题处理(r6笔记第87天)
最近处理一个遗留问题,感觉手动修复真是让人抓狂,所以花了点力气写了一个半自动的脚本,总算从这个繁琐的工作中解放出来了。
问题的背景如下图所示。
存在一个很大的统计库(有容灾备库),还有一个历史统计库,历史统计库中都是相对较老的数据。
统计库中的数据相对要新一些,但是数据持续增长,空间使用太多,业务中使用历史数据的频率不高,把历史数据清理了又怕影响业务,就需要把数据暂时挪到历史库中,所以历史库中的数据都是几年前的老数据,而统计库中的都是近几年相对较新的数据。
比如一个分区表test,有2011年的分区数据在历史库中,有2014年的数据在统计库中,统计库中的数据太多,空间不足就需要把数据从统计库清理掉,同事保证历史库中存在这份数据。
可能之前的同事把有些表空间和分区绑定了起来,所以涉及的表空间非常多,需要检查这些表空间中所对应的数据文件,表空间所在的段中的分区数据情况,然后再 在历史库中检查一遍,确定两边查到的数据条数是一样的(历史数据不会有dml改动),如果数据在两边都存在,就删除现网统计库中的,然后删除对应的数据文 件,对应的表空间。
之前是每隔一周或者两周左右就会做一次这样的检查和清理工作,所以得时常惦记着,想多删点,因为手动校验检查处理着实费神费力,所以也删不了太多。
所以下了决心改进这个情况,至少做成半自动化,人工审核还是需要的,为了保证不误删,检查出现偏差。
我写了一个简单的脚本,运行内容如下:
清理之前,查看有多少含有DATA字样的表空间可清理,清理年份为2012年
check genaral status of data from year 2012
SIZE_MB
----------
308410
检查可清理的段情况,都是分区表和分区索引段。
check segement size summary from year 2012
SEGMENT_TYPE SIZE_MB
------------------ ----------
INDEX PARTITION 255325.188
TABLE PARTITION 288483
检查可清理的段情况,有多少可清理
check segment count summary from year 2012
SEGMENT_TYPE COUNT(*)
------------------ ----------
INDEX PARTITION 4148
TABLE PARTITION 1505
然后就得到了计划清理的表空间,数据文件和文件大小
CONSUMEID_DATA_20121008 +DATA/sgstatdb3/datafile/consumeid_data_20121008.758.840501581 200
CONSUMEID_DATA_20120705 +DATA/sgstatdb3/datafile/consumeid_data_20120705.752.840501565 210
CONSUMEID_DATA_20120403 +DATA/sgstatdb3/datafile/consumeid_data_20120403.742.840501535 230
CONSUMEID_DATA_20120704 +DATA/sgstatdb3/datafile/consumeid_data_20120704.743.840501541 230
CONSUMEID_DATA_20121009 +DATA/sgstatdb3/datafile/consumeid_data_20121009.746.840501549 230
CONSUMEID_DATA_20121007 +DATA/sgstatdb3/datafile/consumeid_data_20121007.741.840501535 240
然后统计有多少表空间可清理。
CONSUMEID_DATA_20121008 200
CONSUMEID_DATA_20120705 210
CONSUMEID_DATA_20121009 230
CONSUMEID_DATA_20120403 230
。。。
然后根据条件生成查看表分区数据的sql语句。
select 'TEST:TEST_SERVER_LOG_SERVER_LOG_20120410', count(*) from TEST.TEST_SERVER_LOG partition (SERVER_LOG_20120410);
select 'TEST:TEST_SERVER_LOG_SERVER_LOG_20120411', count(*) from TEST.TEST_SERVER_LOG partition (SERVER_LOG_20120411);
select 'TEST:TEST_SERVER_LOG_SERVER_LOG_20120412', count(*) from TEST.TEST_SERVER_LOG partition (SERVER_LOG_20120412);
。。。。
在统计库和历史统计库中查看。
统计库中查看
TEST:TEST_SERVER_LOG_SERVER_LOG_20120410 2118970
TEST:TEST_SERVER_LOG_SERVER_LOG_20120411 2145005
TEST:TEST_SERVER_LOG_SERVER_LOG_20120412 2128818
历史统计库中查看
TEST:TEST_SERVER_LOG_SERVER_LOG_20120410 2118970
TEST:TEST_SERVER_LOG_SERVER_LOG_20120411 2145005
TEST:TEST_SERVER_LOG_SERVER_LOG_20120412 2128818
比对两边的数据情况,如果一致则删除
alter table TEST.TEST_SERVER_LOG drop partition (SERVER_LOG_20120410);
alter table TEST.TEST_SERVER_LOG drop partition (SERVER_LOG_20120411);
alter table TEST.TEST_SERVER_LOG drop partition (SERVER_LOG_20120412);
清理完成之后开始确认表空间中是否存在其它的段,然后开始尝试删除数据文件。
初版脚本如下,后面需要不断完善,不过目前所列的这些基本步骤都做到了,很多繁琐的检查工作都给提炼出来了,不用重复执行,费时费力了。
tmp_year=2012
conn_dba=testdba/testdba
hist_conn_dba=tesetdba/testdba@statdb_hist
sqlplus -s $conn_dba <<EOF
prompt check genaral status of data from year $tmp_year
select sum(bytes/1024/1024) size_MB from dba_data_files where tablespace_name like '%DATA%${tmp_year}%' ;
prompt check segement size summary from year $tmp_year
select segment_type,sum(bytes/1024/1024) size_MB from dba_segments where tablespace_name in (select tablespace_name from dba_data_files where tablespace_name like '%${tmp_year}%' ) group by segment_type;
prompt check segment count summary from year $tmp_year
select segment_type,count(*) from dba_segments where tablespace_name in (select tablespace_name from dba_data_files where tablespace_name like '%${tmp_year}%' ) group by segment_type;
set linesize 200
col file_name format a70
set pages 0
select tablespace_name,file_name,sum(bytes/1024/1024) size_MB from dba_data_files where tablespace_name like '%DATA%${tmp_year}%' group by tablespace_name,file_name order by size_MB;
select tablespace_name,sum(bytes/1024/1024) size_MB from dba_data_files where tablespace_name like '%DATA%${tmp_year}%' group by tablespace_name order by size_MB;
set feedback off
set linesize 200
spool get_tab_part_cnt.sql
select 'select '||chr(39)||owner||':'||segment_name||'_'||partition_name ||chr(39)||', count(*) from '||owner||'.'||segment_name||' partition ('||partition_name||');'
from dba_segments where tablespace_name in (select tablespace_name from dba_tablespaces where tablespace_name like '%DATA%${tmp_year}%') and segment_type in ('TABLE PARTITION') and rownum<10;
spool off
EOF
sqlplus -s $conn_dba <<EOF
set pages 0
set feedback off
spool get_tab_part_cnt.log_statdb2
@get_tab_part_cnt.sql
spool off
EOF
sqlplus -s $hist_conn_dba <<EOF
set pages 0
set feedback off
spool get_tab_part_cnt.log_statdb2_hist
@get_tab_part_cnt.sql
spool off
EOF
sdiff get_tab_part_cnt.log_statdb2 get_tab_part_cnt.log_statdb2_hist > tab_cnt_summary.lst
diff_cnt=`diff get_tab_part_cnt.log_statdb2 get_tab_part_cnt.log_statdb2_hist`
sqlplus -s $conn_dba <<EOF
set feedback off
set pages 0
spool drop_tab_part.sql
select 'alter table '||owner||'.'||segment_name||' drop partition ('||partition_name||');'
from dba_segments where tablespace_name in (select tablespace_name from dba_tablespaces where tablespace_name like '%DATA%${tmp_year}%') and segment_type in ('TABLE PARTITION') and rownum<10;
spool off;
EOF
有的朋友可能疑惑为什么不用db link直接比较,因为使用db link来指定具体的分区就不支持了。
select count(*) from TEST.TEST_SERVER_LOG@db_link partition (SERVER_LOG_20120410);
ORA-14100: partition extended table name cannot refer to a remote object
要想突破,搜到的解决方法有两种,但是都果断放弃了,因为确实也没有太好的效果。
解决方式有两种:
1、 不使用partition选项,而在where的条件里进行数据筛选
2、 在源库设立视图,指向分区数据,通过dblink访问该视图
另外通过创建远程表分区的同义词可以达到避过该错误的目的,但效果和全表扫描一样,并不能实现分区扫描,所以并无意义
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Linux 【Shell脚本经典案例】
- 【Vulnhub】SecTalks: BNE0x00 - Minotaur
- Spring Boot扩展机制 - Spring Factories
- Google Analytics上实施透明度和用户意见征求框架
- 浅析鸿蒙 JavaScript GUI 技术栈
- C#串口操作类,包括串口读写操作
- Go by Example 中文版: 时间
- Go by Example 中文版: 时间戳
- Day14.模块&包
- 关于 JavaScript 错误处理的最完整指南(下半部)
- 踩坑记录 | Android 逆向之如何处理 Kali Nat 模式无法上网?
- gson 替换 fastjson 引发的线上问题分析
- P1003 铺地毯
- 花10分钟写一个 Python 脚本,搞定了初中老师一个下午的工作
- 微信小程序导航栏页面滑动切换