ORA-32701 错误接解决 - 数据库编程

-------------------------------------------
os thread scheduling delay history: (sampling every 1.000000 secs)
? 0.000000 secs at [ 09:45:35 ]
? ? NOTE: scheduling delay has not been sampled for 0.376554 secs? 0.000000 secs from [ 09:45:31 - 09:45:36 ], 5 sec avg
? 0.000000 secs from [ 09:44:36 - 09:45:36 ], 1 min avg
? 0.000000 secs from [ 09:40:36 - 09:45:36 ], 5 min avg
loadavg : 2.68 2.42 2.41
swap info: free_mem = 19881.13M rsv = 256.00M
? ? ? ? ? alloc = 138.07M avail = 65536.00M swap_free = 65397.93M
? ? ? F S? ? ? UID? ? ? PID? ? PPID? C PRI NI ADDR? ? SZ? ? WCHAN? ? STIME? ? TTY? TIME CMD
? 240001 A? oracle 15335610? ? ? ? 1? 0? 60 20 948d16590 209136 f1000a01500d48b0 08:37:22? ? ? -? 0:01 ora_m000_egmmdb2
Short stack dump:
ksedsts()+360<-ksdxfstk()+44<-ksdxcb()+3384<-sspuser()+116<-49f0<-sntpread()+40<-ntpfprd()+116<-nsbasic_brc()+1116<-nsbrecv()+128<-nioqrc()+17480<-ttcdrv()+988<-nioqwa()+76<-upirtrc()+2428<-kpurcsc()+108<-kpuexec()+3088<-OCIStmtExecute()+32<-kfgGrpTableCbInternal()+2756<-kfgGrpTableCb()+48<-qerfxFetch()+3728<-qergsFetch()+6856<-opifch2()+6228<-opiefn0()+552<-opipls()+3492<-opiodr()+720<-rpidrus()+216<-skgmstack()+120<-rpidru()+132<-rpiswu2()+480<-rpidrv()+1060<-psddr0()+260<-psdnal()+472<-pevm_EXECC()+532<-pfrinstr_EXECC()+72<-pfrrun_no_tool()+96<-pfrrun()+1032<-plsql_run()+616<-peicnt()+320<-kkxexe()+508<-opiexe()+17224<-opiall0()+1296<-opikpr()+488<-opiodr()+720<-rpidrus()+216<-skgmstack()+120<-rpidru()+132<-rpiswu2()+480<-kprball()+1036<-kkxsexr()+380<-kkxsexe()+604<-pevm_icd_call_common()+896<-pfrinstr_ICAL()+156<-pfrrun_no_tool()+96<-pfrrun()+1032<-plsql_run()+616<-peicnt()+320<-kkxexe()+508<-opiexe()+17224<-kpoal8()+4616<-opiodr()+720<-kpoodrc()+36<-rpiswu2()+480<-kpoodr()+512<-upirtrc()+1328<-kpurcsc()+108<-kpuexec()+10448<-OCIStmtExecute()+32<-kewuxs_execute_statement()+676<-kewfeus_execute_usage_sampling()+268<-kewfads_auto_dbfus_slave()+1296<-kebm_slave_main()+492<-ksvrdp()+1708<-opirip()+724<-opidrv()+608<-sou2o()+136<-opimai_real()+188<-ssthrdmain()+268<-main()+204<-__start()+112
?
-------------------------------------------------------------------------------
Process diagnostic dump actual duration=0.084000 sec
? (max dump time=15.000000 sec)

*** 2014-12-06 09:45:35.854
current sql: SELECT MAX(TOTAL_MB), MIN(TOTAL_MB), SUM(TOTAL_MB), COUNT(*) FROM V$ASM_DISKGROUP <<<<====M000的进程在进行磁盘组空间的统计。(相同的情况在节点2上也在发生，也同时在ON CPU上执行current sql: SELECT MAX(TOTAL_MB), MIN(TOTAL_MB), SUM(TOTAL_MB), COUNT(*) FROM V$ASM_DISKGROUP ，产生节点1和节点2之间M000进程的交叉等待，之后Hang manager介入杀掉进程，同时提示ORA-32701 )，关于这种相互等待我们可以参考enq: FU - contention' and ORA-32701 Warning Seen in Alert Log (Doc ID 1464844.1)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
***********中间部分内容省略 ***********************? ? ? ? ?

下面我们来看一下trace文件中Current Wait Stack部分类容

Current Wait Stack:
? ? ? ? ? ? ? ? ? ? ? ? Not in wait; last wait ended 58 min 27 sec ago? <<<<====一个新的会话需要独占FU enqueue，获取失败，发现FU enqueue已经被另一个会话持有(在not in wait状态下持有超过58分钟)，并且另一个会话整出not in wait状态，所以最后持有FU enqueue的会话被Hang Manager杀掉。
? ? ? ? ? ? ? ? ? ? ? There are 1 sessions blocked by this session.
? ? ? ? ? ? ? ? ? ? ? Dumping one waiter:
? ? ? ? ? ? ? ? ? ? ? ? inst: 1, sid: 1444, ser: 7855
? ? ? ? ? ? ? ? ? ? ? ? wait event: 'enq: FU - contention'
? ? ? ? ? ? ? ? ? ? ? ? ? p1: 'name|mode'=0x46550006
? ? ? ? ? ? ? ? ? ? ? ? ? p2: '0'=0x0
? ? ? ? ? ? ? ? ? ? ? ? ? p3: '0'=0x0
? ? ? ? ? ? ? ? ? ? ? ? row_wait_obj#: 4294967295, block#: 0, row#: 0, file# 0
? ? ? ? ? ? ? ? ? ? ? ? min_blocked_time: 534 secs, waiter_cache_ver: 31914
? ? ? ? ? ? ? ? ? ? ? Wait State:
? ? ? ? ? ? ? ? ? ? ? ? fixed_waits=0 flags=0x20 boundary=0x0/-1
? ? ? ? ? ? ? ? ? ? ? Session Wait History:
? ? ? ? ? ? ? ? ? ? ? ? ? elapsed time of 58 min 27 sec since last wait
? ? ? ? ? ? ? ? ? ? ? 0: waited for 'latch free'
? ? ? ? ? ? ? ? ? ? ? ? ? address=0x7000000000356a0, number=0x13c, tries=0x0
? ? ? ? ? ? ? ? ? ? ? ? ? wait_id=12785 seq_num=20683 snap_id=1
? ? ? ? ? ? ? ? ? ? ? ? ? wait times: snap=0.001418 sec, exc=0.001418 sec, total=0.001418 sec
? ? ? ? ? ? ? ? ? ? ? ? ? wait times: max=infinite
? ? ? ? ? ? ? ? ? ? ? ? ? wait counts: calls=0 os=0
? ? ? ? ? ? ? ? ? ? ? ? ? occurred after 0.001614 sec of elapsed time
? ? ? ? ? ? ? ? ? ? ? 1: waited for 'control file sequential read'
? ? ? ? ? ? ? ? ? ? ? ? ? file#=0x0, block#=0x1a, blocks=0x1
? ? ? ? ? ? ? ? ? ? ? ? ? wait_id=12784 seq_num=20682 snap_id=1
? ? ? ? ? ? ? ? ? ? ? ? ? wait times: snap=0.000258 sec, exc=0.000258 sec, total=0.000258 sec
? ? ? ? ? ? ? ? ? ? ? ? ? wait times: max=infinite
? ? ? ? ? ? ? ? ? ? ? ? ? wait counts: calls=0 os=0
? ? ? ? ? ? ? ? ? ? ? ? ? occurred after 0.000016 sec of elapsed time

三：错误原因及解决方法

看完Hang Manager，结合上面alert日志及trace的分析我们知道报错的原因是FU enqueue的争用。但是为什么会产生FU enqueue的争用呢，为什么导致阻塞的会话会保持FU enqueue 58分钟这么久的时间？

我试着在执行手动执行SELECT MAX(TOTAL_MB), MIN(TOTAL_MB), SUM(TOTAL_MB), COUNT(*) FROM V$ASM_DISKGROUP;语句，发现语句一直处于Hang着不动，等了几十分钟都没有结果。接着有试着查看了asm_disk，也是被HANG住。这就难怪数据库会报ORA-32701错误了，数据库MMON的子进程在搜集磁盘组的使用信息时，被HANG住(推测这个信息可能是每隔一个小时会收集一次，因为这个报错大概一个小时会发生一次。当下次收集任务开始时，发现FU enqueue还在被上一个任务持有，然后通过Hang Manager杀掉了上一个会话，如此往复)。

那么问题又来了，为什么访问与磁盘信息有关的视图会Hang住呢？

MOS上找到一遍NOTE貌似跟我们报错一样，'enq: FU - contention' and ORA-32701 Warning Seen in Alert Log (Doc ID 1464844.1)。这个上面说可能是因为统计信息有问题，导致查询Hang，但是数据库fixed objects统计信息是没有问题的。

没有办法提了SR，但是一个多月过去了，oracle也没查出问题原因。看来还是只能靠自己啊，根据经验asm_diskstring异常经常会导致查询磁盘相关视图慢，我们的数据库该参数是空的(正常情况下是没有问题的，该参数不设置，ASM也会根据操作系统不同到相关目录下去扫描磁盘)。所以我猜测这个问题有可能是该参数引起的。根据猜测准备重置该参数alter system set asm_diskstring=

ORA-32701 错误接解决(二)