ORA-00600 kcratr_nab_less_than_odr 处理小计

绝代码农

　　今天由于客户现场异常断电，oracle数据库又无法启动了。远程上去看看吧。

数据库只能mount，已经无法启动

SQL> select status from v$instance;
STATUS
------------
MOUNTED
SQL> ALTER DATABASE OPEN;
ALTER DATABASE OPEN
*
ERROR at line 1:
ORA-01589: must use RESETLOGS or NORESETLOGS option for database open

尝试recover和resetlogs open都不行

SQL> recover database;
ORA-00283: recovery session canceled due to errors
ORA-01610: recovery using the BACKUP CONTROLFILE option must be done
SQL> ALTER DATABASE OPEN resetlogs;
ALTER DATABASE OPEN resetlogs
*
ERROR at line 1:
ORA-01113: file 1 needs media recovery
ORA-01110: data file 1: 'D:\APP\ORACLE\ORADATA\PRJDB\SYSTEM01.DBF'

Alert log 显示错误

~~~~~~~~~~~~~~~~
Sun Jan 14 19:52:29 2018
ALTER DATABASE OPEN
Beginning crash recovery of 1 threads
 parallel recovery started with 3 processes
......
Started redo scan
Completed redo scan
 read 2300 KB redo, 0 data blocks need recovery
Errors in file d:\app\oracle\diag\rdbms\prjdb\prjdb\trace\prjdb_ora_1644.trc  (incident=315209):
ORA-00600: internal error code, arguments: [kcratr_nab_less_than_odr], [1], [29904], [4864], [4870], [], [], [], [], [], [], []
Incident details in: d:\app\oracle\diag\rdbms\prjdb\prjdb\incident\incdir_315209\prjdb_ora_1644_i315209.trc
Aborting crash recovery due to error 600
Errors in file d:\app\oracle\diag\rdbms\prjdb\prjdb\trace\prjdb_ora_1644.trc:
ORA-00600: internal error code, arguments: [kcratr_nab_less_than_odr], [1], [29904], [4864], [4870], [], [], [], [], [], [], []
Errors in file d:\app\oracle\diag\rdbms\prjdb\prjdb\trace\prjdb_ora_1644.trc:
ORA-00600: internal error code, arguments: [kcratr_nab_less_than_odr], [1], [29904], [4864], [4870], [], [], [], [], [], [], []
ORA-600 signalled during: ALTER DATABASE OPEN...
~~~~~~~~~~~~~~~~~~~

结合ALERT里的错误ORA-00600: internal error code, arguments: [kcratr_nab_less_than_odr], [1], [29904], [4864], [4870],是由于服务器异常断电，导致LGWR写redo log时失败，

　　下次重新启动数据库时，需要做实例级恢复，而又无法从联机日志文件里获取到这些redo信息，因为上次断电时，写日志失败了。

那么ORA-00600的错误里，那几个参数 [1], [29904], [4864], [4870]的含义是，实例需要恢复sequence为29904的redo文件，需要恢复到编号为4870的日志块，而实际上只能恢复到第4864个日志块儿，所以数据库就不能正常启动。

那我们怎么办呢？先检查一下控制文件和datafile记录的checkpoint_change#信息吧。

　　数据文件检查点（记录在控制文件中）

SQL> select file#,checkpoint_change#,last_change# from v$datafile where rownum<5;
   FILE# CHECKPOINT_CHANGE# LAST_CHANGE#
---------- ------------------ ------------
     1      664629049
     2      664629049
     3      664629049
     4      664629049

　　系统检查点（记录在控制文件中）

SQL>  select checkpoint_change# from v$database;
CHECKPOINT_CHANGE#
---------- ------------------ ------------
     664607310

　　数据文件头检查点（记录在数据文件中）

SQL> select file#,checkpoint_change# from v$datafile_header where rownum<5;
   FILE# CHECKPOINT_CHANGE#
---------- ------------------
     1      664629049
     2      664629049
     3      664629049
     4      664629049

　　-7. 以上三个checkpoint_change#要一致(只读、脱机表空间除外)，数据库才能正常打开。否则会需要进行一步的处理。正常关库时，会生成新的检查点，写入上述三个checkpoint_change#，同时数据文件中的last_change#也会记录下该检查点，也就是说三个checkpoint_change#与last_change#记录着同一个值。
　　-8. 通过上面的错误，以及checkpoint_change#的不一致，已经可以确认，就是控制文件，由于断电。导致的controlfile损坏（checkpoint_change#不一致）。
　　-9. 由于没有备份，我们只能通过重建controlfile的方式，来解决这个问题。
　　指定trace文件的生成路径
SQL> alter database backup controlfile to trace as '/tmp/controlfile.trc';　　生成文件提取建库脚本如下，启动数据库到nomount状态，执行下面脚本。
　　注意：类似的恢复操作，先将现有的数据库进行备份。即使这个数据库已经无法启动。我们也要防止恢复操作导致的更严重的问题。

CREATE CONTROLFILE REUSE DATABASE "PRJDB" NORESETLOGS FORCE LOGGING ARCHIVELOG
  MAXLOGFILES 16
  MAXLOGMEMBERS 3
  MAXDATAFILES 200
  MAXINSTANCES 8
  MAXLOGHISTORY 584
LOGFILE
  GROUP 1 'D:\APP\ORACLE\ORADATA\PRJDB\REDO01.LOG'  SIZE 50M BLOCKSIZE 512,
  GROUP 2 'D:\APP\ORACLE\ORADATA\PRJDB\REDO02.LOG'  SIZE 50M BLOCKSIZE 512,
  GROUP 3 'D:\APP\ORACLE\ORADATA\PRJDB\REDO03.LOG'  SIZE 50M BLOCKSIZE 512
DATAFILE
  'D:\APP\ORACLE\ORADATA\PRJDB\SYSTEM01.DBF',
  'D:\APP\ORACLE\ORADATA\PRJDB\SYSAUX01.DBF',
  'D:\APP\ORACLE\ORADATA\PRJDB\UNDOTBS01.DBF',
  'D:\APP\ORACLE\ORADATA\PRJDB\USERS01.DBF'
CHARACTER SET US7ASCII;

　　-10. 检查数据库状态

SQL> select status from v$instance;
STATUS
 ------ ----- -
MOUNTED

　　-11. 尝试重启一下，看到是需要恢复的（其实我是知道这样起不来的，但是就像任性的看看报错）。

SQL> alter database open;
alter database open
*
ERROR at line 1:
ORA-01113: file 1 needs media recovery
ORA-01110: data file 1: 'D:\APP\ORACLE\ORADATA\PRJDB\SYSTEM01.DBF'

　　-12. 恢复数据库，其实啥也没做，recover就是走个过场，但是必须得走这个流程。

SQL> recover database;
Media recovery complete.

启动数据库，成功

SQL> alter database open;
Database altered.
SQL> select status from v$instance;
STATUS
--- --------
OPEN

再看看checkpoint_change#值，统一了吧。

SQL> select file#,checkpoint_change#,last_change# from v$datafile where rownum<5;
   FILE# CHECKPOINT_CHANGE# LAST_CHANGE#
---------- ------------------ ------------
     1      664649053
     2      664649053
     3      664649053
     4      664649053

SQL> select checkpoint_change# from v$database;
CHECKPOINT_CHANGE#
------------------
     664649053

SQL> select file#,checkpoint_change# from v$datafile_header where rownum<5;
   FILE# CHECKPOINT_CHANGE#
---------- ------------------
     1      664649053
     2      664649053
     3      664649053
     4      664649053

　　最后，再唠叨一下，备份真的很重要！很简单！
　　没有备份的数据库，不单单是裸奔那么简单！
　　不出问题，丢人！出问题，伤身啊！！
　　如何重建控制文件，请参考：
　　https://blog.51cto.com/hsbxxl/908251
　　参考链接：
http://wallimn.iteye.com/blog/1199561

[Oracle] ORA-00600 kcratr_nab_less_than_odr 处理小计

相关帖子

浏览过的版块

解析Oracle查询和删除JOB的SQL

浅析Oracle中的不等于号

探讨Oracle中的&号问题

Oracle多表级联更新详解

[Oracle] 解析在没有备份的情况下undo损坏怎么办

解析Oracle中多表级联删除的方法

Oracle中如何把表和索引放在不同的表空间里

Oracle中获取执行计划的几种方法分析

浅析Oracle中char和varchar2的区别

Linux系统中的翻页命令more和less使用教程

绝代码农 LV4