fixed problem with looping ctdb recoveries
authorAndrew Tridgell <tridge@samba.org>
Thu, 20 Nov 2008 21:05:59 +0000 (08:05 +1100)
committerAndrew Tridgell <tridge@samba.org>
Thu, 20 Nov 2008 23:24:13 +0000 (10:24 +1100)
commit59b6a9a9e66bc66cb6dda6a03226626ee12506db
treebd538e28da3dd55465473545c0d53190d22f934e
parenteeae32c8d222058acfe6e967e766f82560edea3e
fixed problem with looping ctdb recoveries

After a node failure, GPFS can get into a state where non-blocking
fcntl() locks can take a long time. This means to the ctdb set_recmode
test timing out, which leads to a recovery failure, and a new
recovery. The recovery loop can last a long time.

The fix is to consider a fcntl timeout as a success of this test. The
test is to see that we can't lock the shared reclock file, so a
timeout is fine for a success.

(This used to be ctdb commit 6579a6a2a7161214adedf0f67dce62f4a4ad1afe)
ctdb/server/ctdb_recover.c