一次Oracle数据恢复实践 - 数据库编程

本文简单记录一下最近一次数据恢复的过程。

事情的起因是，一个应用升级后，某一个操作导致一个表的几个列全部被更新为同一值（忍不住又要唠叨测试的重要性）。这样的错误居然出现在应用代码中，显然是重大的BUG。那个是罪魁祸首的SQL，UPDATE语句，其WHERE条件仅仅只有一个where 1=1。

系统的维护人员称是星期五出的错，发现出错是在星期天，也就是我恢复数据的日期，与声称的出错时间已经隔了将近2天。开始尝试用flashback query恢复数据，报ORA-01555错误，此路不通。维护人员说，星期五之前的RMAN备份已经被删除了（又是一个备份恢复策略不当地例子），使用基于时间点的恢复也不可能了。剩下的一条路，只有使用log miner。还好归档文件还在数据库服务器上。

这套库是一套RAC数据库，由于没有人能确认操作发生在哪个节点，因此需要将一个节点下所有的归档复制到另一个节点上（如果没有足够的空间，可以使用NFS）。然后需要找到我们用于数据恢复的归档日志：

尝试找到数据被错误更新的时间点：

很不幸的是，没有找着需要的数据。再往后找了几个日志，也没找着。
如果一直找下去，显然会消耗比较长的时间，业务也已经停止了。不过可以用一种简单的方法来查找数据被错误更新发生的时间：一个比较大的表，通常段头后面的那个块，也就是存储那个表的数据的第1个块，通常是很少更新的，至少当时恢复的那个表是这样一种情况。我们可以通过数据块中ITL上的事务SCN来满足我们的要求。

从上面的结果可以看到，数据块的ITL中，最新的事务其SCN为88d7af30，正处于最后一个归档日志的first_change#和last_change#之间，即88d25dcf和88dbd27e之间，难不成这个错误是今天早上才发生的？于是我挖掘最后1个归档日志，结果发生错误的确是发生在早上，也就是我开始进行恢复操作之前半个小时。

既然错误并没有发生太久，同时这个系统也允许一定的数据丢失，那就使用flashback query，得到UPDATE操作之前的数据即可。

幸运的是，这次闪回查询成功了。看起来足够大的UNDO表空间还是有好处，至少我已经有数次用闪回查询来恢复数据。