一个闪回区报警的数据恢复(r11笔记第62天)
今天在火车上接到一个电话说,数据库有个报警,让我看看是怎么回事。
看着报警信息一直重复出现,看来是有些问题了。
这是一个统计库,出现了DG相关的报警(自定义配置的),看起来是备库端接收归档的时候出现了问题。
Error 270 creating remote archivelog file 'sgstatdb3'
我们知道备库端其实是有一个80%的阈值控制闪回区的,当时限于在火车上,网络,信号不顺畅,所以让同事帮忙看了下,大体是说闪回区满了,但是系统层面设置了crontab定期去删除归档,每个小时会触发一次。
这样听起来闪回区依旧满好像也没有道理啊。我联系其之前碰到的类似问题,大体有几个猜测,一个是发生了SQL的性能问题,导致产生了大量的归档,导致闪回区使用率暂时还恢复不过来。另外一种就是闪回区设置太小,一些例行操作可能短时间生成归档,闪回区还一时应付不过来。
结果没过一会,我发现自己的设想都不对,那是什么问题呢。
首先尝试手工运行定时任务脚本来删除过期归档,竟然抛出了警告。
RMAN-08120: WARNING: archived log not deleted, not yet applied by standby
archived log file name=+ARCH/sgstatdb3/archivelog/2017_01_31/thread_1_seq_176745.384.934727315 thread=1 sequence=176745
我们在RMAN中设置了归档的删除策略是必须要应用到备库之后才可以删除。所以目前基本断定应该是在之前出现了一个断点。
接着查看数据库日志发现近期的归档接收都是没有问题的,最新的归档都传输过来了,最后归档满了,新的归档接收不了了。
原本的ADG现在状态是READ ONLY了。
SQL> select open_mode from v$database;
OPEN_MODE
--------------------
READ ONLY
那么我们就需要找到之前是在哪个时间点出现了断点。
我读到了下面的一段日志内容,原来是在之前的一个时间点创建数据文件的时候报错了。
Datafile #872: '+DATA/sgstatdb3/datafile/tlbb_data.1197.933781165'
Fri xxx 15:41:40 2017
Errors in file /U01/app/oracle/diag/rdbms/sgstatdb3/statdb2/trace/statdb2_pr00_28125.trc:
ORA-01119: error in creating database file '+data'
ORA-17502: ksfdcre:4 Failed to create file +data
ORA-15041: diskgroup "DATA" space exhausted
File #873 added to control file as 'UNNAMED00873'.
Originally created as:
'/U01/app/oracle/oradata/statdb29/tlbb_data16.dbf'
Recovery was unable to create the file as a new OMF file.
MRP0: Background Media Recovery terminated with error 1274
Errors in file /U01/app/oracle/diag/rdbms/sgstatdb3/statdb2/trace/statdb2_pr00_28125.trc:
ORA-01274: cannot add datafile '/U01/app/oracle/oradata/statdb29/tlbb_data16.dbf' - file could not be created
Managed Standby Recovery not using Real Time Apply
Recovery interrupted!
通过这段日志可以看出,创建数据文件其实是这样一个动作,创建的时候空间慢了无法创建就会生成一个句柄,会默认在$ORACLE_HOME/dbs下生成。
我在备库端查看的情况如下:
SQL> select name from v$datafile where file#=873;
/U01/app/oracle/product/11.2.3/db_1/dbs/UNNAMED00873
文件管理的设置如下:
SQL> show parameter standby_file_management
NAME TYPE VALUE
------------------------------------ ----------- --------
standby_file_management string AUTO
当然问题的原因到底是什么呢,是磁盘组的里出现了问题,备库端使用了ASM,才两个磁盘组,数据文件的磁盘组剩余16G左右,而归档所在的磁盘组剩余56M,而问题的原因是在哪里呢。是在数据文件的磁盘组+DATA上。
NAME TOTAL_MB FREE_MB
----------------- ----------
ARCH 204800 56
DATA 6383104 16214
这个问题该怎么解释呢,因为主库创建一个数据文件,大概是30G,这个操作会映射到备库,也会在备库创建一个30G的数据文件,唯一的不同是数据文件名可以根据映射规则不同,但是在主库中空间充足,创建没有问题,在备库数据文件所在的磁盘组满了,创建不了一个30G的文件,所以这个操作就会生成一个断点,导致MRP直接异常退出,而我们设定的归档删除策略是保证归档应用到备库才可以删除,所以闪回区就会越放越满,直到几百GB的空间都满了。
问题原因已经说明清楚了,接下来该怎么处理呢。这就是一个不太常规的思路了。我们就得做减法。备库空间不足,目前还无法直接扩容,所以问题处理的空间就有一定的局限性。
我们知道主库和备库其实是有一些文件是不同的,比如temp文件,主库为30G,备库为1G也没有问题,是一种插件式的功能,而且不是必须的。所以要紧缩空间,temp就是一个首要考虑的选择,如果空间还不够怎么办,我们直接resize文件是不行的,因为主库resize的操作得等到之前的变更在备库应用完成之后才可以。那么还有哪些文件是可以暂时可清理,来应急处理这个问题呢。还有就是standby logfile了。一般是建议2*n+1的公式,我们可以在这个情况下先删掉几组,把空间先省出来,后续再调整。简单来说就是删temp文件,删除部分备库日志文件。
SQL> alter tablespace temp drop tempfile '+DATA/sgstatdb3/tempfile/temp.910.840550051';
Tablespace altered
.删除备库日志文件,如果报错,可以使用如下的方式处理。
SQL> alter database drop logfile group 26;
alter database drop logfile group 26
*
ERROR at line 1:
ORA-01624: log 26 needed for crash recovery of instance statdb2 (thread 1)
ORA-00312: online log 26 thread 1: '+DATA/sgstatdb3/onlinelog/group_26.907.840501783'
ORA-00312: online log 26 thread 1: '+DATA/sgstatdb3/onlinelog/group_26.908.840501785'
这样处理即可。
SQL> alter database clear unarchived logfile group 26;
Database altered.
SQL> alter database drop standby logfile group 26;
Database altered.
然后使用如下的方式重置数据文件,比如下面的例子:
alter database create datafile '/U01/app/oracle/product/11.2.3/db_1/dbs/UNNAMED00874' as '+DATA/sgstatdb3/datafile/tlbb_data17.dbf';
然后重新开启日志应用,但是发现RMAN开始不听话了。
$ rman target /
RMAN-00554: initialization of internal recovery manager package failed
RMAN-04005: error from target database:
ORA-00604: error occurred at recursive SQL level 1
ORA-01219: database not open: queries allowed on fixed tables/views only
ORA-06508: PL/SQL: could not find program unit being called: "SYS.X$DBMS_BACKUP_RESTORE"
ORA-06512: at line 1
RMAN-04015: error setting target database character set to ZHS16GBK
看错误是在x$的一个对象上过不去了。这个时候简单想想x$是内存表,是在数据库启动的过程中初始化的,我们可以采用如下的策略来解决。
先让MRP开启归档日志应用,应用一部分归档,然后重启数据库到Mount状态,开启RMAN清理。这样闪回区的问题就解决了,都得算计着用空间。
就这样花了个把小时的时间,问题总算是顺利解决了。
- keepalived+nginx搭建高可用(注意点)
- 我的WCF之旅(10):如何在WCF进行Exception Handling
- 安装nginx出现的问题
- 18.11 LVS DR模式搭建
- Linux基础(day64)
- 我的WCF之旅(9):如何在WCF中使用tcpTrace来进行Soap Trace
- 物联网设备已沦陷,咖啡机也不能例外
- 我的WCF之旅(13):创建基于MSMQ的Responsive Service
- 开发自己的Data Access Application Block[上篇]
- 18.9/18.10 LVS NAT模式搭建
- 谈谈WCF中的Data Contract (1):Data Contract Overview
- Linux基础(day66)
- 字符串的驻留(String Interning)
- 19.5 忘记Admin密码如何做
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Spring 基于注解(annotation)的配置之@Required注解
- 由一个系统激活工具引起的一次简单测试
- Golang channel 快速入门
- 潘石屹用Python解决100个问题 | 素数
- Spring 自动装配模式之构造函数装配方式
- 安全狗 {safedog} 最新版注入bypass
- C语言定时关机小程序
- 深入k8s:Pod对象中重要概念及用法
- Golang语言排序的几种方式
- 性能分析(1)- Java 进程导致 CPU 使用率升高,问题怎么定位?
- 安全服务之安全基线及加固(三)Apache篇
- 使用docsify来管理文献
- Cypress系列(41)- Cypress 的测试报告
- SSRF绕过
- 性能测试必备知识(6)- 如何查看“CPU 上下文切换”