[Linux-ha-jp] インターフェースダウンの障害時について

Back to archive index

sekiya_kyuus****@yahoo***** sekiya_kyuus****@yahoo*****
2011年 8月 10日 (水) 14:00:02 JST


関谷です。

heartbeatのバージョンは3.0.4でした。
バージョンアップすると直るような気もしてきました・・・。
ちょっとやってみようと思います。

OSのアーキテクチャはx86_64になります。


--- On Wed, 2011/8/10, 岩崎@サードウェア <iwasa****@3ware*****> wrote:

>  岩崎です
> 
>  興味深い症状ですね。
>  もしかするとバグっぽい動きなので、私の方でも調査してみようと思います。
>  ときに、ご利用のHeartbeatのバージョンはいくつでしょうか。
>  同じような環境でやってみようと思いますのでOSのアーキテクチャも教えてくださいー
> 
>  余談ですが3.0.4だとパケロスしたときに変な動作になってエラーログを吐きまくる症状があって、それは3.0.5で解消されています。
> 
> 
>  On Tue, 9 Aug 2011 16:40:28 +0900 (JST), sekiya_kyuus****@yahoo***** 
>  wrote:
> > はじめまして関谷と申します。
> >
> > 使用OS:RHEL5.4
> > pacemakerのバージョン:1.0.10-1.4
> >
> > 現在2台構成でクラスタリングを組んでいます。
> >
> > 同時に以下のリソースを起動するようにしています。
> > mysql4系
> > mysql5系
> > postgres9系
> >
> > さらに上記DBに対して一つずつVIPを作成するようにしてあります。
> >
> > 以下のような構成です。
> > pacemaker
> >      ∟mysql4のVIP-mysql4
> >      ∟mysql5のVIP-mysql5
> >      ∟postgres9のVIP-postgres9
> >
> > db01…リソース稼働中
> > db02…リソース待機中
> >
> > 基本的には上手く動いているのですが、
> > インターフェースダウンの障害時に以下のようなメッセージが
> > 永遠とログに出続けます。
> >
> > 【db01】
> > Aug 09 15:53:47 db01 heartbeat: [2363]: WARN: Rexmit of seq 66672
> > requested. 3 is max.
> >
> > 【db02】
> > Aug 09 15:53:47 db02 heartbeat: [4661]: WARN: Gmain_timeout_dispatch:
> > Dispatch function for retransmit request took too long to execute: 20
> > ms (> 10 ms) (GSource: 0x9822230)
> >
> > プロセスダウン、VIPダウン、heartbeatのダウン
> > などの障害時にはこのようなことにならないです。
> > インターフェースダウン時のみです。
> > (正確にはインターフェースアップ時ですが)
> >
> > 実施した障害テスト+復旧の流れは以下になります。
> > ①db01インターフェースダウン
> > ②db02にVIP+リソースが移動し、正常稼働
> > ③db01インターフェースをアップ
> >
> > 上記手順の③を実施後にログが出始めます。
> > (②と③の間にdb01のheartbeatの再起動を実施しても結果は同じでした)
> >
> > db01のheartbeatを停止してもdb02のログは出続けます。
> > というわけで、db01、db02のheartbeatを止めないとログが出力される状況は変化なしでした。
> > 2台とも停止⇒起動後はログ出力もとまりました。
> >
> > さらに、sarコマンドを使って該当する時間の稼働情報を出してみたら以下のような結果がでました。
> > 【db01の結果】
> >                   CPU     %user     %nice   %system   %iowait
> > %steal     %idle
> > 15:50:01          all    106.63      0.00    106.63    106.64
> > 106.64      0.00
> >                pgpgin/s pgpgout/s   fault/s  majflt/s
> > 15:50:01    432866871482.24 432866871481.63 432866871446.10 
> > 432866871482.27
> >
> > db02の方は正常な数値でした。
> > なんかとんでもない数値がでてしまっていました。
> > バグなんでしょうか・・・。
> >
> > <crmコンフィグ>
> > node $id="20ed5d8a-8d4e-409d-a718-4aa3995565b5" db02 \
> >         attributes standby="off"
> > node $id="a494a68c-796a-423e-8995-559acdc23502" db01 \
> >         attributes standby="off"
> > primitive res_mysql4 ocf:heartbeat:mysql4 \
> >         op monitor interval="10s"
> > primitive res_mysql4_vip ocf:heartbeat:IPaddr2 \
> >         params ip="172.0.0.3" nic="eth0" cidr_netmask="25" \
> >         op monitor interval="10s"
> > primitive res_mysql5 ocf:heartbeat:mysql5 \
> >         op monitor interval="10s"
> > primitive res_mysql5_vip ocf:heartbeat:IPaddr2 \
> >         params ip="172.0.0.4" nic="eth0" cidr_netmask="25" \
> >         op monitor interval="10s"
> > primitive res_pgsql9 ocf:heartbeat:pgsql9 \
> >         op monitor interval="10s"
> > primitive res_pgsql9_vip ocf:heartbeat:IPaddr2 \
> >         params ip="172.0.0.5" nic="eth0" cidr_netmask="25" \
> >         op monitor interval="10s"
> > primitive res_pingd ocf:heartbeat:pingd \
> >         params name="default_ping_set" host_list="" multiplier="100"
> > dampen="1" \
> >         op monitor on-fail="block" interval="10s"
> > group grp_mysql4 res_mysql4_vip res_mysql4 \
> >         meta target-role="Started"
> > group grp_mysql5 res_mysql5_vip res_mysql5
> > group grp_pgsql9 res_pgsql9_vip res_pgsql9 \
> >         meta target-role="Started"
> > clone clone_pingd res_pingd
> > location grp_mysql4_location grp_mysql4 \
> >         rule $id="grp_mysql4-rule" -inf: not_defined default_ping_set
> > or default_ping_set lt 100
> > location grp_mysql5_location grp_mysql5 \
> >         rule $id="grp_mysql5-rule" -inf: not_defined default_ping_set
> > or default_ping_set lt 100
> > location grp_pgsql9_location grp_pgsql9 \
> >         rule $id="grp_pgsql9-rule" -inf: not_defined default_ping_set
> > or default_ping_set lt 100
> > property $id="cib-bootstrap-options" \
> >         dc-version="1.0.10-da7075976b5ff0bee71074385f8fd02f296ec8a3" 
> > \
> >         cluster-infrastructure="Heartbeat" \
> >         last-lrm-refresh="1312538205" \
> >         no-quorum-policy="ignore" \
> >         stonith-enabled="false"
> > rsc_defaults $id="rsc-options" \
> >         resource-stickiness="INFINITY" \
> >         migration-threshold="3"
> >
> > <db01 ha.cf>
> > pacemaker on
> > node db01
> > node db02
> > ucast eth0 172.0.0.2
> > udpport 694
> >
> > keepalive 5
> > warntime 10
> > deadtime 15
> > initdead 15
> >
> > logfile /var/log/heartbeat/ha.log
> > debug 0
> > logfacility none
> >
> > watchdog /dev/watchdog
> > respawn root /usr/lib64/heartbeat/ifcheckd
> >
> > <db02 ha.cf>
> > pacemaker on
> > node db01
> > node db02
> > ucast eth0 172.0.0.1
> > udpport 694
> >
> > keepalive 5
> > warntime 10
> > deadtime 15
> > initdead 15
> >
> > logfile /var/log/heartbeat/ha.log
> > debug 0
> > logfacility none
> >
> > watchdog /dev/watchdog
> > respawn root /usr/lib64/heartbeat/ifcheckd
> 
> -- 
>  ----------------------------------------------------------------------
>  岩崎  登               (株)サードウェア
> 
>  Noboru Iwasaki           274-0815 千葉県船橋市西習志野3-39-8
>  iwasa****@3ware*****      URL: http://www.3ware.co.jp/
>  Phone: 047-496-3341      Fax: 047-496-3370
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 





Linux-ha-japan メーリングリストの案内
Back to archive index