[Linux-ha-jp] インターフェースダウンの障害時について

Back to archive index

sekiya_kyuus****@yahoo***** sekiya_kyuus****@yahoo*****
2011年 8月 17日 (水) 11:48:07 JST


関谷です。

検証までしていただいてありがとうございます。

今までpingdは以下のものを改修してつかっていました
/usr/lib/ocf/resource.d/pacemaker/pingd

山内さんの設定を見て気づいたのですが
/usr/lib/ocf/resource.d/heartbeat/pingd
こっちのpingdを使うようにしたらうまく動くようになりました。

諸々解決しました、
どうもありがとうございました。


--- On Wed, 2011/8/17, renay****@ybb***** <renay****@ybb*****> wrote:

> 関谷さん
> 
> こんにちは、山内です。
> 
> 気になる現象でしたので、念の為、手元の環境(RHEL5.6 @ Esxiの2台)で確認してみました。
> (ha.cfの通信はbcast通信ですが、ほとんど同じです)
> (order設定、ホストへのスコア設定をしていないのでリソースはsrv01,srv02のどちらかで起動する形になります)
> 
> --利用したcrm:Dummyに変更してpingdの疎通先はパラメータでセット--
> primitive res_mysql4 ocf:heartbeat:Dummy \
>         op monitor interval="10s"
> primitive res_mysql4_vip ocf:heartbeat:Dummy \
>         params ip="172.0.0.3" nic="eth0" cidr_netmask="25" \
>         op monitor interval="10s"
> primitive res_mysql5 ocf:heartbeat:Dummy \
>         op monitor interval="10s"
> primitive res_mysql5_vip ocf:heartbeat:Dummy \
>         params ip="172.0.0.4" nic="eth0" cidr_netmask="25" \
>         op monitor interval="10s"
> primitive res_pgsql9 ocf:heartbeat:Dummy \
>         op monitor interval="10s"
> primitive res_pgsql9_vip ocf:heartbeat:Dummy \
>         params ip="172.0.0.5" nic="eth0" cidr_netmask="25" \
>         op monitor interval="10s"
> primitive res_pingd ocf:heartbeat:pingd \
>         params name="default_ping_set" host_list="192.168.40.1" multiplier="100" dampen="1" \
>         op monitor on-fail="block" interval="10s"
> group grp_mysql4 res_mysql4_vip res_mysql4 \        meta target-role="Started"
> group grp_mysql5 res_mysql5_vip res_mysql5
> group grp_pgsql9 res_pgsql9_vip res_pgsql9 \        meta target-role="Started"
> clone clone_pingd res_pingd
> location grp_mysql4_location grp_mysql4 \        rule $id="grp_mysql4-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> location grp_mysql5_location grp_mysql5 \        rule $id="grp_mysql5-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> location grp_pgsql9_location grp_pgsql9 \        rule $id="grp_pgsql9-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> property $id="cib-bootstrap-options" \        cluster-infrastructure="Heartbeat" \        no-quorum-policy="ignore" \        stonith-enabled="false"
> rsc_defaults $id="rsc-options" \        resource-stickiness="INFINITY" \        migration-threshold="3"
> 
> 
> 
> 1)起動後
> [root @ srv01 ~]# crm_mon -1 -f 
> ============
> Last updated: Wed Aug 17 19:22:27 2011
> Stack: Heartbeat
> Current DC: srv02 (65955f30-20f6-431d-9c75-6454f74995e7) - partition WITHOUT quorum
> Version: 1.0.9-da7075976b5ff0bee71074385f8fd02f296ec8a3
> 2 Nodes configured, unknown expected votes
> 0 Resources configured.
> ============
> 
> Online: [ srv01 srv02 ]
> 
> 
> Migration summary:
> * Node srv02: 
> * Node srv01: 
> 
> 
> 2)crm投入後
> [root @ srv01 ~]# crm_mon -1 -f 
> ============
> Last updated: Wed Aug 17 19:23:03 2011
> Stack: Heartbeat
> Current DC: srv02 (65955f30-20f6-431d-9c75-6454f74995e7) - partition WITHOUT quorum
> Version: 1.0.9-da7075976b5ff0bee71074385f8fd02f296ec8a3
> 2 Nodes configured, unknown expected votes
> 4 Resources configured.
> ============
> 
> Online: [ srv01 srv02 ]
> 
> Resource Group: grp_mysql4
>      res_mysql4_vip     (ocf::heartbeat:Dummy): Started srv01
>      res_mysql4 (ocf::heartbeat:Dummy): Started srv01
> Resource Group: grp_mysql5
>      res_mysql5_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_mysql5 (ocf::heartbeat:Dummy): Started srv02
> Resource Group: grp_pgsql9
>      res_pgsql9_vip     (ocf::heartbeat:Dummy): Started srv01
>      res_pgsql9 (ocf::heartbeat:Dummy): Started srv01
> Clone Set: clone_pingd
>      Started: [ srv01 srv02 ]
> 
> Migration summary:
> * Node srv02: 
> * Node srv01: 
> 
> 3)srv01でのpingdをiptablesで遮断後
> 
> [root @ srv01 ~]# crm_mon -1 -f 
> ============
> Last updated: Wed Aug 17 19:23:57 2011
> Stack: Heartbeat
> Current DC: srv02 (65955f30-20f6-431d-9c75-6454f74995e7) - partition WITHOUT quorum
> Version: 1.0.9-da7075976b5ff0bee71074385f8fd02f296ec8a3
> 2 Nodes configured, unknown expected votes
> 4 Resources configured.
> ============
> 
> Online: [ srv01 srv02 ]
> 
> Resource Group: grp_mysql4
>      res_mysql4_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_mysql4 (ocf::heartbeat:Dummy): Started srv02
> Resource Group: grp_mysql5
>      res_mysql5_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_mysql5 (ocf::heartbeat:Dummy): Started srv02
> Resource Group: grp_pgsql9
>      res_pgsql9_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_pgsql9 (ocf::heartbeat:Dummy): Started srv02
> Clone Set: clone_pingd
>      Started: [ srv01 srv02 ]
> 
> Migration summary:
> * Node srv02: 
> * Node srv01: 
> 
> 
> 4)srv01での遮断を解除後(srv01へのフェイルバックはしていない)
> 
> [root @ srv01 ~]# crm_mon -1 -f
> ============
> Last updated: Wed Aug 17 19:25:27 2011
> Stack: Heartbeat
> Current DC: srv02 (65955f30-20f6-431d-9c75-6454f74995e7) - partition WITHOUT quorum
> Version: 1.0.9-da7075976b5ff0bee71074385f8fd02f296ec8a3
> 2 Nodes configured, unknown expected votes
> 4 Resources configured.
> ============
> 
> Online: [ srv01 srv02 ]
> 
> Resource Group: grp_mysql4
>      res_mysql4_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_mysql4 (ocf::heartbeat:Dummy): Started srv02
> Resource Group: grp_mysql5
>      res_mysql5_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_mysql5 (ocf::heartbeat:Dummy): Started srv02
> Resource Group: grp_pgsql9
>      res_pgsql9_vip     (ocf::heartbeat:Dummy): Started srv02
>      res_pgsql9 (ocf::heartbeat:Dummy): Started srv02
> Clone Set: clone_pingd
>      Started: [ srv01 srv02 ]
> 
> Migration summary:
> * Node srv02: 
> * Node srv01: 
> 
> どうも、遮断解除後にsrv01へのフェイルバックはしないようです。
> 
> pingdのhostlistをRA内に設定しているとのことですが、どのような設定をされているのでしょうか?
> 
> 以上、宜しく御願いいたします。
> 
> 
> 
> --- On Tue, 2011/8/16, renay****@ybb***** <renay****@ybb*****> wrote:
> 
> > 関谷さん
> > 
> > こんにちは、山内です。
> > 
> > 設定に関して2点ほど。。。。
> > 
> > ①pingdですが、pingdの疎通が3つのgrp_mysqlリソース起動の条件になっていると思いますので、orderを組んだ方が起動を確実に出来ます。
> > 
> >  例:order rsc_order-1 0: clnPingd          grpPostgreSQLDB
> > 
> > ②pingdのdampen値ですが、attrdの処理の都合上、3sあたりに設定して頂いた方がおかしな現象に遭遇する可能性が下がります。
> > 
> > 以上、宜しくお願いいたします。
> > 
> > 
> > --- On Tue, 2011/8/16, renay****@ybb***** <renay****@ybb*****> wrote:
> > 
> > > 関谷さん
> > > 
> > > こんにちは、山内です。
> > > 
> > > 入っていましたか。。。。
> > > 
> > > 初期のgrp_mysql4,grp_mysql5,grp_mysql9について、
> > > 1号機、2号機のスコアを記載したらどうなりますでしょうか?
> > > 
> > > 以下は、例です。
> > > 
> > > location rsc_location-1 prmIpPostgreSQLDB \
> > >         rule  200: #uname eq srv01 \
> > >         rule  100: #uname eq srv02 \
> > >         rule -inf: not_defined default_ping_set or default_ping_set lt 100
> > > 
> > > もしそれでもおかしいようであれば、hb_reportで情報を収集して投稿して
> > > 頂いた方がよさそうです。
> > > 
> > > 以上、よろしく御願いいたします。
> > > 
> > > 
> > > --- On Tue, 2011/8/16, sekiya_kyuus****@yahoo***** <sekiya_kyuus****@yahoo*****> wrote:
> > > 
> > > > 山内さん
> > > > 
> > > > ご教授ありがとうございます。
> > > > 
> > > > > ### Resource Defaults ###
> > > > > rsc_defaults \
> > > > >         resource-stickiness="INFINITY" 
> > > > ただ、この設定は入っていました。
> > > > もう少し設定をいじってみようと思います。
> > > > 
> > > > 以下、全体の設定になります。
> > > > <crmコンフィグ>
> > > > node $id="20ed5d8a-8d4e-409d-a718-4aa3995565b5" db02 \
> > > >         attributes standby="off"
> > > > node $id="a494a68c-796a-423e-8995-559acdc23502" db01 \
> > > >         attributes standby="off"
> > > > primitive res_mysql4 ocf:heartbeat:mysql4 \
> > > >         op monitor interval="10s"
> > > > primitive res_mysql4_vip ocf:heartbeat:IPaddr2 \
> > > >         params ip="172.0.0.3" nic="eth0" cidr_netmask="25" \
> > > >         op monitor interval="10s"
> > > > primitive res_mysql5 ocf:heartbeat:mysql5 \
> > > >         op monitor interval="10s"
> > > > primitive res_mysql5_vip ocf:heartbeat:IPaddr2 \
> > > >         params ip="172.0.0.4" nic="eth0" cidr_netmask="25" \
> > > >         op monitor interval="10s"
> > > > primitive res_pgsql9 ocf:heartbeat:pgsql9 \
> > > >         op monitor interval="10s"
> > > > primitive res_pgsql9_vip ocf:heartbeat:IPaddr2 \
> > > >         params ip="172.0.0.5" nic="eth0" cidr_netmask="25" \
> > > >         op monitor interval="10s"
> > > > primitive res_pingd ocf:heartbeat:pingd \
> > > >         params name="default_ping_set" host_list="" multiplier="100" dampen="1" \
> > > >         op monitor on-fail="block" interval="10s"
> > > > group grp_mysql4 res_mysql4_vip res_mysql4 \
> > > >         meta target-role="Started"
> > > > group grp_mysql5 res_mysql5_vip res_mysql5
> > > > group grp_pgsql9 res_pgsql9_vip res_pgsql9 \
> > > >         meta target-role="Started"
> > > > clone clone_pingd res_pingd
> > > > location grp_mysql4_location grp_mysql4 \
> > > >         rule $id="grp_mysql4-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> > > > location grp_mysql5_location grp_mysql5 \
> > > >         rule $id="grp_mysql5-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> > > > location grp_pgsql9_location grp_pgsql9 \
> > > >         rule $id="grp_pgsql9-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> > > > property $id="cib-bootstrap-options" \
> > > >         dc-version="1.0.10-da7075976b5ff0bee71074385f8fd02f296ec8a3" \
> > > >         cluster-infrastructure="Heartbeat" \
> > > >         last-lrm-refresh="1312538205" \
> > > >         no-quorum-policy="ignore" \
> > > >         stonith-enabled="false"
> > > > rsc_defaults $id="rsc-options" \
> > > >         resource-stickiness="INFINITY" \
> > > >         migration-threshold="3"
> > > > 
> > > > <db01 ha.cf>
> > > > pacemaker on
> > > > node db01
> > > > node db02
> > > > ucast eth0 172.0.0.2
> > > > udpport 694
> > > > 
> > > > keepalive 5
> > > > warntime 10
> > > > deadtime 15
> > > > initdead 15
> > > > 
> > > > logfile /var/log/heartbeat/ha.log
> > > > debug 0
> > > > logfacility none
> > > > 
> > > > watchdog /dev/watchdog
> > > > respawn root /usr/lib64/heartbeat/ifcheckd
> > > > 
> > > > <db02 ha.cf>
> > > > pacemaker on
> > > > node db01
> > > > node db02
> > > > ucast eth0 172.0.0.1
> > > > udpport 694
> > > > 
> > > > keepalive 5
> > > > warntime 10
> > > > deadtime 15
> > > > initdead 15
> > > > 
> > > > logfile /var/log/heartbeat/ha.log
> > > > debug 0
> > > > logfacility none
> > > > 
> > > > watchdog /dev/watchdog
> > > > respawn root /usr/lib64/heartbeat/ifcheckd
> > > > 
> > > > 
> > > > 
> > > > --- On Tue, 2011/8/16, renay****@ybb***** <renay****@ybb*****> wrote:
> > > > 
> > > > > 関谷さん
> > > > > 
> > > > > こんにちは、山内です。
> > > > > 
> > > > > 全体設定を見ていないのですが、リソースの配置完了後のスコアに問題がある為、
> > > > > リソースが1号機の回復後にスコアに従って、フェールバックしているのだと思います。
> > > > > 
> > > > > crm設定に、
> > > > > 
> > > > > ### Resource Defaults ###
> > > > > rsc_defaults \
> > > > >         resource-stickiness="INFINITY" 
> > > > > 
> > > > > を加えてください。
> > > > > 
> > > > > この設定で、他の設定が影響していなければ、リソースが起動した方のスコアは最大に
> > > > > なるので、1号機を回復しても2号機のスコアが上になります。
> > > > > 
> > > > > ただし、他の設定が影響しているかも知れませんので、うまくいかないかも知れません。
> > > > > 
> > > > > 以上、よろしく御願いいたします。
> > > > > 
> > > > > --- On Tue, 2011/8/16, sekiya_kyuus****@yahoo***** <sekiya_kyuus****@yahoo*****> wrote:
> > > > > 
> > > > > > 関谷です。
> > > > > > 
> > > > > > heartbeatのバージョンを3.0.5にアップしたら
> > > > > > バグっぽい動作は改善され問題は解決しました。
> > > > > > 有益な情報ありがとうございました。とても助かりました。
> > > > > > 
> > > > > > ただ、一点挙動として気になることがあります。
> > > > > > 
> > > > > > ①1号機のインターフェースダウン
> > > > > > ②1号機のdefault_ping_setの値が0になりリソースが2号機へフェールオーバ
> > > > > > ※ここまではOK
> > > > > > ③1号機のインターフェースアップ
> > > > > > ④1号機のdefault_ping_setの値が100に戻り、リソースが1号機へフェールバック
> > > > > > 
> > > > > > 1号機のインターフェースがアップし、ping疎通が復活したとしても
> > > > > > 自動でフェールバックさせたくないのですが、これは仕様でしょうか?
> > > > > > default_ping_setの値が100に戻って欲しくないのですが。。。
> > > > > > 
> > > > > > 以下設定の一部です。
> > > > > > primitive res_pingd ocf:db_cluster:pingd \
> > > > > >         params name="default_ping_set" host_list="" multiplier="100" dampen="1" \
> > > > > >         op monitor on-fail="block" interval="10s"
> > > > > > clone clone_pingd res_pingd
> > > > > > location grp_mysql4_location grp_mysql4 \
> > > > > >         rule $id="grp_mysql4-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> > > > > > location grp_mysql5_location grp_mysql5 \
> > > > > >         rule $id="grp_mysql5-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> > > > > > location grp_pgsql9_location grp_pgsql9 \
> > > > > >         rule $id="grp_pgsql9-rule" -inf: not_defined default_ping_set or default_ping_set lt 100
> > > > > > 
> > > > > > ※host_listの値はRAのpingdに直接書き込んでいます。
> > > > > > 
> > > > > > 
> > > > > > --- On Wed, 2011/8/10, 岩崎@サードウェア <iwasa****@3ware*****> wrote:
> > > > > > 
> > > > > > >  岩崎です
> > > > > > > 
> > > > > > >  On Wed, 10 Aug 2011 14:00:02 +0900 (JST), sekiya_kyuus****@yahoo***** 
> > > > > > >  wrote:
> > > > > > > > 関谷です。
> > > > > > > >
> > > > > > > > heartbeatのバージョンは3.0.4でした。
> > > > > > > > バージョンアップすると直るような気もしてきました・・・。
> > > > > > > > ちょっとやってみようと思います。
> > > > > > > >
> > > > > > > > OSのアーキテクチャはx86_64になります。
> > > > > > > >
> > > > > > > 
> > > > > > >  了解ですー。もし症状が改善されるようでしたら情報MLに投げてくれるとうれしいです。
> > > > > > > 
> > > > > > > -- 
> > > > > > >  ----------------------------------------------------------------------
> > > > > > >  岩崎  登               (株)サードウェア
> > > > > > > 
> > > > > > >  Noboru Iwasaki           274-0815 千葉県船橋市西習志野3-39-8
> > > > > > >  iwasa****@3ware*****      URL: http://www.3ware.co.jp/
> > > > > > >  Phone: 047-496-3341      Fax: 047-496-3370
> > > > > > > 
> > > > > > > _______________________________________________
> > > > > > > Linux-ha-japan mailing list
> > > > > > > Linux****@lists*****
> > > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > > > > > > 
> > > > > > 
> > > > > > _______________________________________________
> > > > > > Linux-ha-japan mailing list
> > > > > > Linux****@lists*****
> > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > > > > > 
> > > > > 
> > > > > _______________________________________________
> > > > > Linux-ha-japan mailing list
> > > > > Linux****@lists*****
> > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > > > > 
> > > > 
> > > > _______________________________________________
> > > > Linux-ha-japan mailing list
> > > > Linux****@lists*****
> > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > > > 
> > > 
> > > _______________________________________________
> > > Linux-ha-japan mailing list
> > > Linux****@lists*****
> > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> > >
> > 
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 





Linux-ha-japan メーリングリストの案内
Back to archive index