Oracle教程：实例故障恢复 - 数据库编程

MTBF：Mean-Time-Between-Failures两次故障之间的平均无故障时间
MTTR：Mean-Time-To-Recover故障恢复平均时间

故障分类：
1.SQL表达式引起的故障
BUG，非法数据，超过权限，配额限制
2.用户进程故障
断开连接，会话注销，用户进程BUG，PMON自动处理此故障
3.用户故障
人为清空、删除表
4.网络故障
断网
5.实例故障
断电，SMON进程处理此故障
6.介质故障
磁盘损坏，RMAN热备和dataguard容灾

内存结构
database buffer cache：存储从datafile中读取的blocks。数据由server process从数据文件读入database buffer cache，数据由DBWn进程从database buffer cache写入datafile；

redo log buffer：存储对数据库的任何改变，由LGWR写到redo logs

Large pool：可选组件，备份等需要使用的大内存

shared pool：存储已经解析的SQL表达式和PL/SQL过程，数据字典信息

java pool:存储java code和JVM

后台进程
DBWn（Database writer）：把database buffer cache的脏数据(即已修改的数据）写到datafile。

LGWR（Log writer）：把redo log buffer数据写到redo log files

SMON（System monitor）：自动实例恢复，恢复临时段的空间当不再使用时，合并零散空间。

PMON（Process monitor）：清理连接进程；回滚进程操作和资源。

CKPT(checkpoint) :把当前redo log信息同步到datafile和control files的头上。

ARCn（Archiver）：可选，把redo logs自动复制到其他地方。

用户进程
连接数据库的程序进程，如:sqlplus

服务进程
接收用户进程请求，处理请求。专有服务进程和共享服务进程

数据库文件
Datafile：数据的物理存储，至少一个。
Redo logs：存储数据改变，至少2组。
Control files：记录了数据库的状态，物理结构，RMAN预处理数据
Archive logs ：联机重做日志文件的物理备份。

initialization parameter file：Pfile文件，存储实例启动所需参数
Server initialization parameter file：SPfile文件，存储实例启动所需持久的参数,二进制文件。
Password file：存储能启动、停止和恢复数据库的特权用户的信息；二进制文件。可使用工具ORAPWD.EXE手工创建密码文件

动态视图
v$sga
v$sgastat
v$instance
v$process
v$bgprocess
v$database
v$datafile

如果large_pool_size参数被设置了，oracle会尝试去large pool获取内存。如果这个值不够大，oracle也不会尝试去shared pool获取缓冲区。如果没配置，oracle会分配共享内存缓冲区从shared pool。
如果orcle不能得到充足的内存，它就会从local process memory得到I/O缓冲区。而且会写信息到alert.log中，指出同步I/O被用于备份。

database buffer cache：用于存储大多数最近使用的数据块的区域，使用最近最少使用算法（LRU）去决定覆盖某些以用来容纳新的block。

DBWn：写修改过的数据到数据文件，以确保可以从datafile读取新的block到database buffer cache。周期性的同步database buffer cache和datafile（即把database buffer cache写回到datafile）。繁重的工作可配置20个DWBn进程，DBW0-DBW9，DBWA-DBWJ。

redo log buffer：是一个有对数据库改变信息的环形缓冲区，这些信息存储在redo entries。
redo entries包含需要重建或重做的信息，如INSERT、UPDATE、DELETE、CREATE、ALTER、DROP操作。redo entries用于数据库恢复，如果需要的话。redo entries被server process从用户内存空间复制到redo log buffer。

LGWR：当redo log buffer三分之一满，当每3秒,当有1MB的redo信息，当在DBWn写修改过的数据到数据文件之前，当commit时，写redo log file。

checkpoint position：恢复开始的地方，联机重做日志文件里的一个点。
它是checkpoint queue的第一个entry的开始标志。
例如：checkpoint这一点之前的redo log数据已被写到数据文件里。

checkpoint queue：内存中的队列链表。
checkpoint queue里的每个entry包含数据块的标识和与之相关的redo entry的信息。这样的一个entry被称为RBA（redo byte address）。DBWn读取checkpoint queue的一个entry写入数据文件后删除这个entry。

checkpoint的类型
FULL checkpoint：全checkpoint，把所有的buffer都写入数据文件。当shutdown normal，immediate，transactional和alter system checkpoint时发生。

Incremental checkpoint：增量checkpoint，周期性写，闲置时写。

partial checkpoint：部分checkpoint，写表空间的脏数据。当alter tablespace begin backup和alter tablespace xxx offline normal。

CKPT:在检查点发生时通知DBWn进程去写datafile后，更新datafiles和control files的头去指出最近的checkpoint。每隔3秒，CKPT记录检查点队列里面的第一个entry的RBA信息到控制文件中。只有在日志切换的时候，CKPT才会更新数据文件的头，为了提高性能不会马上更新所有的头，而是“懒写”。日志切换时不会把所有的脏数据写到磁盘。

control file：二进制文件，它描述了数据库的结构，当数据库处于mount或open状态的时候它必须能被数据库服务器来写。它的名字取决于操作系统。没有这个文件数据库不能被mount。推荐配置最少2个控制文件放在不同的磁盘以减少控制文件丢失带来的影响。控制文件损坏一个数据库就不能工作。控制文件包含数据库名字、数据库创建的时间戳，恢复所需的同步信息、数据文件和联机重做日志文件的名字和位置、数据库的归档模式、当前log sequence number、RMAN的备份元信息。

archived log file：用作media recovery。当被设置为归档模式时，LGWR进程会等联机重做日志文件被归档后才继续工作。

ARCn:可选进程。当被启动时，它会把redo log files拷贝到指定的存储区域。这个进程对7*24数据库的备份恢复有很大的意见。当日志切

Oracle教程：实例故障恢复(一)