AKIBA Makoto
akiba****@acroq*****
2016年 10月 18日 (火) 14:14:28 JST
To: 山内さん 秋葉です。 いつもお世話になっております。 回答ありがとうございます。 > 1点だけ、気になる点がありますが・・ > 秋葉さんの環境はpcsを利用してクラスタのスクリプトを流し込んでいるいる > と思いますが、pcsdはsystemdで常時起動されている状態でしょうか? > もし、起動されているのであれば、こちらも、pcsd利用に変えて確認してみた > いと思います。 確認しましたが、pcsdは常時起動してはいませんでした。 (pacemakerd ではないのですよね?) ------------------------------------------------------------ # ps -ef | grep pcsd root 23447 838 0 14:13 pts/0 00:00:00 grep --color=auto pcsd ------------------------------------------------------------ # systemctl status pacemaker.service ● pacemaker.service - Pacemaker High Availability Cluster Manager Loaded: loaded (/usr/lib/systemd/system/pacemaker.service; disabled; vendor preset: disabled) Active: active (running) since 木 2016-09-08 20:59:18 JST; 1 months 9 days ago Main PID: 2533 (pacemakerd) CGroup: /system.slice/pacemaker.service +- 2533 /usr/sbin/pacemakerd -f +- 2534 /usr/libexec/pacemaker/cib +- 2535 /usr/libexec/pacemaker/stonithd +- 2536 /usr/libexec/pacemaker/lrmd +- 2537 /usr/libexec/pacemaker/attrd +- 2538 /usr/libexec/pacemaker/pengine +- 2539 /usr/libexec/pacemaker/crmd 現在(上記1 months 9 day)の状態で、psを見た時のsystemdの VSZとRSSは以下のようになっています。 ------------------------------------------------------------ # ps -eo pid,vsz,rss,comm | grep systemd 1 2229064 2188992 systemd 蛇足ですが、corosyncは以下のようになっています。 ------------------------------------------------------------ # systemctl status corosync.service ● corosync.service - Corosync Cluster Engine Loaded: loaded (/usr/lib/systemd/system/corosync.service; disabled; vendor preset: disabled) Active: active (running) since 木 2016-09-08 20:59:01 JST; 1 months 9 days ago Process: 2509 ExecStart=/usr/share/corosync/corosync start (code=exited, status=0/SUCCESS) Main PID: 2516 (corosync) CGroup: /system.slice/corosync.service +- 2516 corosync 以上、よろしくお願い致します。 > -----Original Message----- > From: linux****@lists***** > [mailto:linux****@lists*****] On Behalf Of > renay****@ybb***** > Sent: Monday, October 17, 2016 11:09 PM > To: linux****@lists***** > Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で PostgreSQL を動か > した際の空きメモリ減少について > > 秋葉さん > > こんばんは、山内です。 > > > 返事が遅くなりました。 > > いろいろ再現調査していただいてありがとうございます。 > > > > 再現調査をした環境は pacemaker + corosync のみ(と > > ダミープロセス?)で動かした状態と考えてよろしい > > でしょうか? > > はい。 > 問題を切り分けするのが簡単ですし、pacemaker+corosyncのみ(Dummyのみ)で > す。 > > > こちらでも長期動作させて観察しているのですが、 > > pacemaker + corosync で冗長化させているサーバが > > もう1種類あり、PostgreSQLではなくJavaAPが動いて > > います。 > > こちらのJavaAPが動いている方はACT+STBで常に片方のみ > > プロセスが起動しています。 > > (PostgreSQLのサーバは両系でプロセスが起動しています) > > > > この2つの冗長化サーバで、 > > JavaAPの方はsystemdのメモリ増加が起きていないことが > > わかっています。 > > > > もはやpacemaker+corosyncの問題というよりsystemdの > > 問題という気もしておりますが、念のため、PostgreSQLが > > (両系ホットスタンバイで)動くかどうかは、メモリ使用量の > > 増加有無に影響するのでしょうか? > > > PostgreSQL,OS側に精通しているわけではないので、有識者の方のコメントがあ > ると良いのですが・・・ > Pacemakerの構成で指定したリソースエージェントのRAのPostgreSQLは、基本 > 的には、systemdプロセスへの影響はないと思っています。 > #systemdでPostgreSQLを起動して、それをPacemakerでsystemdリソースで > 管理しているのであれば影響はある可能性もあるとは思いますが・・・ > > 秋葉さんの環境では、PostgreSQLのレプリケーション構成だと思いますので、 > 両系でPostgreSQLが動いていますのでメモリ使用料に変化はあると思います > が、 > それが、systemdのメモリ増加へは影響しないと思っています。 > > > 1点だけ、気になる点がありますが・・ > 秋葉さんの環境はpcsを利用してクラスタのスクリプトを流し込んでいるいる > と思いますが、pcsdはsystemdで常時起動されている状態でしょうか? > もし、起動されているのであれば、こちらも、pcsd利用に変えて確認してみた > いと思います。 > > > 以上です。 > > > > > ----- Original Message ----- > > From: AKIBA Makoto <akiba****@acroq*****> > > To: linux****@lists***** > > Cc: > > Date: 2016/10/17, Mon 19:53 > > Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で PostgreSQL を動 > かした際の空きメモリ減少について > > > >T o: 山内さん > > > > 秋葉です。 > > > > 返事が遅くなりました。 > > いろいろ再現調査していただいてありがとうございます。 > > > > 再現調査をした環境は pacemaker + corosync のみ(と > > ダミープロセス?)で動かした状態と考えてよろしい > > でしょうか? > > > > こちらでも長期動作させて観察しているのですが、 > > pacemaker + corosync で冗長化させているサーバが > > もう1種類あり、PostgreSQLではなくJavaAPが動いて > > います。 > > こちらのJavaAPが動いている方はACT+STBで常に片方のみ > > プロセスが起動しています。 > > (PostgreSQLのサーバは両系でプロセスが起動しています) > > > > この2つの冗長化サーバで、 > > JavaAPの方はsystemdのメモリ増加が起きていないことが > > わかっています。 > > > > もはやpacemaker+corosyncの問題というよりsystemdの > > 問題という気もしておりますが、念のため、PostgreSQLが > > (両系ホットスタンバイで)動くかどうかは、メモリ使用量の > > 増加有無に影響するのでしょうか? > > > > > > 以上 > > > >> -----Original Message----- > >> From: linux****@lists***** > >> [mailto:linux****@lists*****] On Behalf Of > >> renay****@ybb***** > >> Sent: Monday, October 17, 2016 7:16 PM > >> To: linux****@lists***** > >> Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で PostgreSQL を > 動か > >> した際の空きメモリ減少について > >> > >> 秋葉さん > >> > >> こんばんは、山内です。 > >> > >> 遅くなりました・・続けて先週末の時点のCentOS7.2に最新のアップデー > トを > >> 適用して、2日半程度流してみみました。 > >> ゲストの構成や、リソースは前回と同じのままです。 > >> > >> ---------- > >> Linux c7-01 3.10.0-327.36.2.el7.x86_64 #1 SMP Mon Oct 10 23:08:37 UTC > 2016 > >> x86_64 x86_64 x86_64 GNU/Linux > >> systemd-219-19.el7_2.13.x86_64 > >> glibc-2.17-106.el7_2.8.x86_64 > >> pacemaker-1.1.13-10.el7.x86_64 > >> corosync-2.3.4-7.el7.x86_64 > >> ---------- > >> > >> 以下が結果となりました。 > >> > >> ●ACTノードのpid=1のsystemdのtopデータ > >> PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ > >> COMMAND > >> 1 root 20 0 44172 6796 3904 S 0.0 0.3 0:02.66 > >> systemd > >> 1 root 20 0 44172 6796 3904 S 0.0 0.3 0:02.66 > >> systemd > >> 1 root 20 0 44172 6796 3904 S 0.0 0.3 0:02.67 > >> systemd > >> (snip) > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.86 > >> systemd > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.87 > >> systemd > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.87 > >> systemd > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.88 > >> systemd > >> > >> ●STBノードのpid=1のsystemdのtopデータ > >> 1 root 20 0 44040 6640 3900 S 0.0 0.3 0:02.73 > >> systemd > >> 1 root 20 0 44040 6640 3900 S 0.0 0.3 0:02.73 > >> systemd > >> 1 root 20 0 44040 6640 3900 S 0.0 0.3 0:02.74 > >> systemd > >> (snip) > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.67 > >> systemd > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.68 > >> systemd > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.68 > >> systemd > >> 1 root 20 0 44172 6808 3908 S 0.0 0.3 0:16.70 > >> systemd > >> > >> やはり、前回と同様に、systemd(pid=1)に増加は見られますが、秋葉さん > の最 > >> 初にご報告頂いたような増加は起きていないようです。 > >> #ただ・・この結果だけで判断出来ないとは思いますが、前回の計測よりは > 増加 > >> 量が減ってように見えるので、systemd関連で何らかのメモリ関連の修正が > 入っ > >> ている可能性はあると思います。 > >> > >> 以上です。 > >> > >> > >> > >> > >> > >> > >> ----- Original Message ----- > >> > From: "renay****@ybb*****" > > <renay****@ybb*****> > >> > To: "linux****@lists*****" > > <linux****@lists*****> > >> > Cc: > >> > Date: 2016/10/3, Mon 22:37 > >> > Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で PostgreSQL を > 動 > >> かした際の空きメモリ減少について > >> > > >> > 秋葉さん > >> > > >> > こんばんは、山内です。 > >> > > >> > 週末から、私の環境でも、2日半程度流してみみました。 > >> > > >> > vSphere上のCentOS7.2のゲスト2台で、CentOS7.2(1511)のISOイメー > ジそ > >> のままで構成してみました。 > >> > > >> > ---------- > >> > CentOS Linux release 7.2.1511 (Core) > >> > Linux c7-01 3.10.0-327.el7.x86_64 #1 SMP Thu Nov 19 22:10:57 UTC 2015 > >> x86_64 > >> > x86_64 x86_64 GNU/Linux > >> > systemd-219-19.el7.x86_64 > >> > glibc-2.17-105.el7.x86_64 > >> > pacemaker-1.1.13-10.el7.x86_64 > >> > corosync-2.3.4-7.el7.x86_64 > >> > ---------- > >> > > >> > リソースは簡易のDummyリソースのみですが、以下のようにしています。 > >> > ---------- > >> > ●設定ファイル(crm形式です) > >> > ### Cluster Option ### > >> > property no-quorum-policy="ignore" \ > >> > stonith-enabled="false" \ > >> > startup-fencing="false" > >> > > >> > ### Resource Defaults ### > >> > rsc_defaults resource-stickiness="INFINITY" \ > >> > migration-threshold="1" > >> > > >> > ### Group Configuration ### > >> > group grpDummy \ > >> > prmDummy1 \ > >> > prmDummy2 \ > >> > prmDummy3 \ > >> > prmDummy4 \ > >> > prmDummy5 \ > >> > > >> > ### Primitive Configuration ### > >> > primitive prmDummy1 ocf:pacemaker:Dummy \ > >> > op start interval="0s" timeout="60s" > >> > on-fail="restart" \ > >> > op monitor interval="10s" timeout="60s" > >> > on-fail="restart" \ > >> > op stop interval="0s" timeout="60s" > >> > on-fail="block" > >> > > >> > primitive prmDummy2 ocf:pacemaker:Dummy \ > >> > op start interval="0s" timeout="60s" > >> > on-fail="restart" \ > >> > op monitor interval="10s" timeout="60s" > >> > on-fail="restart" \ > >> > op stop interval="0s" timeout="60s" > >> > on-fail="block" > >> > > >> > primitive prmDummy3 ocf:pacemaker:Dummy \ > >> > op start interval="0s" timeout="60s" > >> > on-fail="restart" \ > >> > op monitor interval="10s" timeout="60s" > >> > on-fail="restart" \ > >> > op stop interval="0s" timeout="60s" > >> > on-fail="block" > >> > > >> > primitive prmDummy4 ocf:pacemaker:Dummy \ > >> > op start interval="0s" timeout="60s" > >> > on-fail="restart" \ > >> > op monitor interval="10s" timeout="60s" > >> > on-fail="restart" \ > >> > op stop interval="0s" timeout="60s" > >> > on-fail="block" > >> > > >> > primitive prmDummy5 ocf:pacemaker:Dummy \ > >> > op start interval="0s" timeout="60s" > >> > on-fail="restart" \ > >> > op monitor interval="10s" timeout="60s" > >> > on-fail="restart" \ > >> > op stop interval="0s" timeout="60s" > >> > on-fail="block" > >> > > >> > ### Resource Location ### > >> > location rsc_location-msDrbd-1 grpDummy \ > >> > rule 200: #uname eq c7-01 \ > >> > rule 100: #uname eq c7-02 > >> > ---------- > >> > ●crm_monの様子 > >> > [root @ c7-01 ~]# crm_mon -1 > >> > Last updated: Mon Oct 3 16:35:29 2016 Last change: Fri Sep > > 30 > >> 00:28:56 > >> > 2016 by root via cibadmin on c7-01 > >> > Stack: corosync > >> > Current DC: c7-01 (version 1.1.13-10.el7-44eb2dd) - partition with > > quorum > >> > 2 nodes and 5 resources configured > >> > > >> > Online: [ c7-01 c7-02 ] > >> > > >> > Resource Group: grpDummy > >> > prmDummy1 (ocf::pacemaker:Dummy): Started c7-01 > >> > prmDummy2 (ocf::pacemaker:Dummy): Started c7-01 > >> > prmDummy3 (ocf::pacemaker:Dummy): Started c7-01 > >> > prmDummy4 (ocf::pacemaker:Dummy): Started c7-01 > >> > prmDummy5 (ocf::pacemaker:Dummy): Started c7-01 > >> > ---------- > >> > > >> > > >> > 以下が結果となりました。 > >> > > >> > ●ACTノードのpid=1のsysttemdのtopデータ > >> > PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ > >> COMMAND > >> > 1 root 20 0 44644 7280 2600 S 0.0 0.4 0:03.18 > >> systemd > >> > 1 root 20 0 44644 7296 2600 S 0.0 0.4 0:03.20 > >> systemd > >> > 1 root 20 0 44644 7296 2600 S 0.0 0.4 0:03.21 > >> systemd > >> > 1 root 20 0 44644 7296 2600 S 0.0 0.4 0:03.21 > >> systemd > >> > 1 root 20 0 44644 7296 2600 S 0.0 0.4 0:03.21 > >> systemd > >> > 1 root 20 0 44644 7296 2600 S 0.0 0.4 0:03.21 > >> systemd > >> > 1 root 20 0 44644 7296 2600 S 0.0 0.4 0:03.21 > >> systemd > >> > (snip) > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.91 > >> systemd > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.91 > >> systemd > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.91 > >> systemd > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.91 > >> systemd > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.91 > >> systemd > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.93 > >> systemd > >> > 1 root 20 0 45064 7720 2600 S 0.0 0.4 0:21.95 > >> systemd > >> > > >> > ●ACTノードのpid=1のsysttemdのtopデータ > >> > PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ > >> COMMAND > >> > 1 root 20 0 44652 7288 2600 S 0.0 0.4 0:03.23 > >> systemd > >> > 1 root 20 0 44652 7288 2600 S 0.0 0.4 0:03.25 > >> systemd > >> > 1 root 20 0 44652 7288 2600 S 0.0 0.4 0:03.26 > >> systemd > >> > 1 root 20 0 44652 7288 2600 S 0.0 0.4 0:03.26 > >> systemd > >> > 1 root 20 0 44652 7288 2600 S 0.0 0.4 0:03.26 > >> systemd > >> > 1 root 20 0 44652 7288 2600 S 0.0 0.4 0:03.26 > >> systemd > >> > (snip) > >> > 1 root 20 0 45088 7712 2600 S 0.0 0.4 0:21.00 > >> systemd > >> > 1 root 20 0 45088 7712 2600 S 0.0 0.4 0:21.00 > >> systemd > >> > 1 root 20 0 45088 7712 2600 S 0.0 0.4 0:21.00 > >> systemd > >> > 1 root 20 0 45088 7716 2600 S 0.0 0.4 0:21.03 > >> systemd > >> > > >> > systemd(pid=1)に増加は見られますが、秋葉さんの最初にご報告頂いた > よう > >> な増加は起きていないようです。 > >> > #この増加がsystemdの正しい動作の範疇なのかどうかは別物ですが。。。。 > >> > > >> > こちらも、systemdのバージョンなどをアップしても確認してみたいと思 > いま > >> す。 > >> > > >> > 以上です。 > >> > > >> > > >> > > >> > ----- Original Message ----- > >> >> From: "renay****@ybb*****" > >> > <renay****@ybb*****> > >> >> To: "linux****@lists*****" > >> > <linux****@lists*****> > >> >> Cc: > >> >> Date: 2016/9/30, Fri 04:56 > >> >> Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で PostgreSQL > >> > を動かした際の空きメモリ減少について > >> >> > >> >> 秋葉さん > >> >> > >> >> こんばんは、山内です。 > >> >> > >> >> > >> >> こちらでも、準備が出来ましたので、週末に流してみる予定です。 > >> >> > >> >> また、結果がわかりましたら、ご連絡します。 > >> >> > >> >> 以上です。 > >> >> > >> >> > >> >> ----- Original Message ----- > >> >>> From: "renay****@ybb*****" > >> >> <renay****@ybb*****> > >> >>> To: "linux****@lists*****" > >> >> <linux****@lists*****> > >> >>> Cc: > >> >>> Date: 2016/9/28, Wed 18:56 > >> >>> Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で > > PostgreSQL > >> >> を動かした際の空きメモリ減少について > >> >>> > >> >>> 秋葉さん > >> >>> > >> >>> こんばんは、山内です。 > >> >>> > >> >>> 了解いたしました。 > >> >>> > >> >>> ご連絡ありがとうございました。 > >> >>> > >> >>> 以上です。 > >> >>> > >> >>> > >> >>> > >> >>> ----- Original Message ----- > >> >>>> From: AKIBA Makoto <akiba****@acroq*****> > >> >>>> To: linux****@lists***** > >> >>>> Cc: > >> >>>> Date: 2016/9/28, Wed 18:30 > >> >>>> Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で > > PostgreSQL > >> >>> を動かした際の空きメモリ減少について > >> >>>> > >> >>>> 山内さん > >> >>>> > >> >>>> 秋葉です。 > >> >>>> > >> >>>> 設定ファイルの確認ありがとうございました。 > >> >>>> > >> >>>>> ちなみに、systemdのメモリ増加の確認ですが、どのようなコマ > ンド > >> で実行され > >> >>>>> ましたか? > >> >>>>> 念の為、同じ確認を実施したいので、お手数ですが、ご連絡く > ださ > >> い。 > >> >>>> > >> >>>> こちら、取り急ぎ返信致しますと、 > >> >>>> systemdプロセスのメモリ使用量についてはtopコマンドを使っ > て、 > >> >>>> VIRT(VSZ)とRSSを見ております。 > >> >>>> > >> >>>> 特にRSSの方が細かく増え続ける状態になっていました。 > >> >>>> > >> >>>> お手数をおかけしますが、よろしくお願い致します。 > >> >>>> > >> >>>> 以上 > >> >>>> > >> >>>>> -----Original Message----- > >> >>>>> From: linux****@lists***** > >> >>>>> [mailto:linux****@lists*****] On > > Behalf Of > >> >>>>> renay****@ybb***** > >> >>>>> Sent: Wednesday, September 28, 2016 6:08 PM > >> >>>>> To: linux****@lists***** > >> >>>>> Subject: Re: [Linux-ha-jp] pacemaker + corosync 上で > >> > PostgreSQL を動か > >> >>>>> した際の空きメモリ減少について > >> >>>>> > >> >>>>> 秋葉さん > >> >>>>> > >> >>>>> こんばんは、山内です。 > >> >>>>> > >> >>>>> (MLへの送信に失敗しているように思えるので、再送します) > >> >>>>> > >> >>>>> 頂いた設定について拝見しましたが、特にPacemaker的には問 > 題な > >> いと思いま > >> >>>>> す。 > >> >>>>> > >> >>>>> CentOS7でのsystemdの様子については、これからVM構成です > が、 > >> 確認してみ > >> >>>>> るつもりです。 > >> >>>>> > >> >>>>> ちなみに、systemdのメモリ増加の確認ですが、どのようなコマ > ンド > >> で実行され > >> >>>>> ましたか? > >> >>>>> 念の為、同じ確認を実施したいので、お手数ですが、ご連絡く > ださ > >> い。 > >> >>>>> > >> >>>>> 以上です。 > >> >>>>> > >> >>>>> > >> >>>>> > >> >>>>> ----- Original Message ----- > >> >>>>> > From: AKIBA Makoto > > <akiba****@acroq*****> > >> >>>>> > To: linux****@lists***** > >> >>>>> > Cc: > >> >>>>> > Date: 2016/9/28, Wed 16:21 > >> >>>>> > Subject: Re: [Linux-ha-jp] pacemaker + > > corosync 上で > >> >> PostgreSQL を動 > >> >>>>> かした際の空きメモリ減少について > >> >>>>> > > >> >>>>> > 山内さん > >> >>>>> > > >> >>>>> > 秋葉です。 > >> >>>>> > > >> >>>>> > systemdについての情報ありがとうございます。 > >> >>>>> > 確認させていただきます。 > >> >>>>> > > >> >>>>> > > >> >>>>> > 以上 > >> >>>>> > > >> >>>>> >> -----Original Message----- > >> >>>>> >> From: > > linux****@lists***** > >> >>>>> >> > > [mailto:linux****@lists*****] On > >> > Behalf > >> >> Of > >> >>>>> >> renay****@ybb***** > >> >>>>> >> Sent: Monday, September 26, 2016 6:22 PM > >> >>>>> >> To: linux****@lists***** > >> >>>>> >> Subject: Re: [Linux-ha-jp] pacemaker + > > corosync 上で > >> > > >> >>> PostgreSQL を > >> >>>>> 動か > >> >>>>> >> した際の空きメモリ減少について > >> >>>>> >> > >> >>>>> >> 秋葉さん > >> >>>>> >> > >> >>>>> >> こんばんは、山内です。 > >> >>>>> >> > >> >>>>> >> 了解しました。 > >> >>>>> >> こちれでも、時間をみて、頂いた設定をベースに試してみ > たい > >> と思います。 > >> >>>>> >> > >> >>>>> >> systemd関連も不具合などもあるようですので、そちらを探 > して > >> みるのも良 > >> >>>>> いか > >> >>>>> >> もしれません。 > >> >>>>> >> ちょっと探してみても、以下などもありました。 > >> >>>>> >> 直接関係があるかは別ですが・・・ > >> >>>>> >> > >> >>>>> >> * > >> > https://bugzilla.redhat.com/show_bug.cgi?id=1361120 > >> >>>>> >> > >> >>>>> >> > >> >>>>> >> 設定などで質問があれば、またご連絡させてください。 > >> >>>>> >> > >> >>>>> >> 以上です。 > >> >>>>> >> > >> >>>>> >> > >> >>>>> >> > >> >>>>> >> ----- Original Message ----- > >> >>>>> >> > From: AKIBA Makoto > >> > <akiba****@acroq*****> > >> >>>>> >> > To: linux****@lists***** > >> >>>>> >> > Cc: > >> >>>>> >> > Date: 2016/9/26, Mon 16:18 > >> >>>>> >> > Subject: Re: [Linux-ha-jp] > > pacemaker + > >> > corosync 上で > >> >> > >> >>>> PostgreSQL を > >> >>>>> 動 > >> >>>>> >> かした際の空きメモリ減少について > >> >>>>> >> > > >> >>>>> >> > 山内さん > >> >>>>> >> > > >> >>>>> >> > 秋葉です。 > >> >>>>> >> > ご回答・解説ありがとうございます。 > >> >>>>> >> > > >> >>>>> >> > 実際に当方の環境でpacemakerのプロセスメモリサイズ > を > >> >>>>> >> > 見てみたところ、~8MB程度になっており、頂いた情報の > 通り > >> >>>>> >> > 大きくはなっていませんでした。 > >> >>>>> >> > > >> >>>>> >> > 一方で、systemd(pid=1)については1GB程度まで大きく > なっ > >> て > >> >>>>> >> > おり、pmapで参照すると[heap]とマッピングされた領域 > が > >> >>>>> >> > ほとんどを占めているように見えました。 > >> >>>>> >> > > >> >>>>> >> > なので、これ以上の問い合わせは見当違いの可能性もあ > りま > >> すが、 > >> >>>>> >> > 念の為、当方で使用している設定ファイルを添付致しま > す。 > >> >>>>> >> > (固有情報はマスキングしてあります) > >> >>>>> >> > > >> >>>>> >> > これで何か情報が得られましたら教えていただけますで > しょ > >> うか。 > >> >>>>> >> > また、不足している情報がありましたらご指摘ください。 > >> >>>>> >> > > >> >>>>> >> > お手数をおかけ致しますがよろしくお願い致します。 > >> >>>>> >> > > >> >>>>> >> > > >> >>>>> >> > 以上 > >> >>>>> >> > ---------------- > >> >>>>> >> > AKIBA Makoto > >> >>>>> >> > akiba****@acroq***** > >> >>>>> >> > > >> >>>>> >> >> -----Original Message----- > >> >>>>> >> >> From: > >> > linux****@lists***** > >> >>>>> >> >> > >> > [mailto:linux****@lists*****] > >> >> On > >> >>> Behalf > >> >>>> Of > >> >>>>> >> >> renay****@ybb***** > >> >>>>> >> >> Sent: Friday, September 23, > > 2016 6:04 PM > >> >>>>> >> >> To: > > linux****@lists***** > >> >>>>> >> >> Subject: Re: [Linux-ha-jp] > > pacemaker + > >> >> corosync 上で > >> >>> > >> >>>> PostgreSQL > >> >>>>> を > >> >>>>> >> 動か > >> >>>>> >> >> した際の空きメモリ減少について > >> >>>>> >> >> > >> >>>>> >> >> 秋葉さん > >> >>>>> >> >> > >> >>>>> >> >> こんばんは、山内です。 > >> >>>>> >> >> > >> >>>>> >> >> > > pacemakerのプロセスがIPC通信の為にマップしているメ > >> モリは > >> >>>>> 5Mbyteま > >> >>>>> >> でで > >> >>>>> >> >> す。 > >> >>>>> >> >> よって、最大、5Mbyteまでプロセスのメモリサイズは > 上が > >> る可能性が > >> >>>>> あり > >> >>>>> >> ます > >> >>>>> >> >> が、 > >> >>>>> >> >> 先のメールの通りで5Mbyteを超えるあたりで再利用 > する > >> 為、それ以上 > >> >>>>> は増 > >> >>>>> >> えま > >> >>>>> >> >> せん。 > >> >>>>> >> >> > >> >>>>> >> >> > >> >> このサイズですが、/etc/sysconfig/pacemakerのPCMK_ipc_bufferで > >> >>>>> 大き > >> >>>>> >> くは > >> >>>>> >> >> 出来ますが、 > >> >>>>> >> >> 小さくすることは出来ません。 > >> >>>>> >> >> > >> >>>>> >> >> #これらのメモリマップの様子は、pmapコマンドで確 > 認す > >> ることが可 > >> >>>>> 能で > >> >>>>> >> す。 > >> >>>>> >> >> > >> >>>>> >> >> > >> >>>>> >> >> 以上です。 > >> >>>>> >> >> > >> >>>>> >> >> > >> >>>>> >> >> > >> >>>>> >> >> ----- Original Message ----- > >> >>>>> >> >> > From: > >> >> "renay****@ybb*****" > >> >>>>> >> > <renay****@ybb*****> > >> >>>>> >> >> > To: > >> >> "linux****@lists*****" > >> >>>>> >> > > > <linux****@lists*****> > >> >>>>> >> >> > Cc: > >> >>>>> >> >> > Date: 2016/9/22, Thu > > 10:20 > >> >>>>> >> >> > Subject: Re: > > [Linux-ha-jp] > >> > pacemaker + > >> >>> corosync 上で > >> >>>>> > PostgreSQL を > >> >>>>> >> 動 > >> >>>>> >> >> かした際の空きメモリ減少について > >> >>>>> >> >> > > >> >>>>> >> >> > 秋葉さん > >> >>>>> >> >> > > >> >>>>> >> >> > こんにちは、山内です。 > >> >>>>> >> >> > > >> >>>>> >> >> > systemdプロセスではありませんが、 > >> >>>>> >> >> > > >> > pacemakerとcorosyncを組み合わせてクラスタを構成した場合、 > >> >>>>> >> >> > > pacemaker/corosyncプロセスのメモリの使用量が一定期間、 > >> 増加して > >> >>>>> いく > >> >>>>> >> 動作 > >> >>>>> >> >> となります。 > >> >>>>> >> >> > > >> >>>>> >> >> > > > 詳細な動作は、失念していますが、pacmakerのプロセス > >> がメモリマ > >> >>>>> ップ > >> >>>>> >> して > >> >>>>> >> >> いる(??MByteまでだったはず)エリア > >> >>>>> >> >> > を利用して通信などを行う為、クラスタ構成後、マ > ップ > >> した一定量 > >> >>>>> まで > >> >>>>> >> 増加 > >> >>>>> >> >> が続きます。 > >> >>>>> >> >> > ですが、一定量までで、それ以降は、マップしたエ > リア > >> を古い方か > >> >>>>> ら再 > >> >>>>> >> 利用 > >> >>>>> >> >> する為、増加は止まります。 > >> >>>>> >> >> > (上記のマップしているサイズについては、確認し > て、 > >> 再度、ご連 > >> >>>>> 絡し > >> >>>>> >> ます) > >> >>>>> >> >> > > >> >>>>> >> >> > > >> > (1)(4)あたりは上記で説明が付くかと思いますが。。。(2)(3)の原因 > >> >>>>> には > >> >>>>> >> 直接 > >> >>>>> >> >> 影響しないかと思います。 > >> >>>>> >> >> > > >> >>>>> >> >> > > > 実際に増加しているのがsystemdプロセスとのことです > >> が、 > >> >>>>> >> >> > >> > pacemaker+corosyncのクラスタ構成で、リソースなどはsystemdを経 > >> >>>>> 由し > >> >>>>> >> て > >> >>>>> >> >> > 実行・監視しているでしょうか? > >> >>>>> >> >> > > >> >> #pacemakerのprimitiveリソースとしてsystemdリソースを利用し > >> >>>>> てい > >> >>>>> >> るか > >> >>>>> >> >> どうか?ということです。 > >> >>>>> >> >> > > >> >>>>> >> >> > > > pacemakerの構成ファイルなど開示して頂ければ、私の方 > >> でも確認可 > >> >>>>> 能か > >> >>>>> >> も知 > >> >>>>> >> >> れません。 > >> >>>>> >> >> > > > #本当にリークしているのがsystemdプロセスである可 > >> 能性もある > >> >>>>> とは > >> >>>>> >> 思い > >> >>>>> >> >> ますが・・・・ > >> >>>>> >> >> > > >> >>>>> >> >> > 以上です。 > >> >>>>> >> >> > > >> >>>>> >> >> > > >> >>>>> >> >> >> 現在、pacemaker + > > corosync > >> > のクラスタ上で > >> >>> PostgreSQL を > >> >>>>> >> >> >> > > 動作させているデータベースサーバがあるのですが、 > >> >>>>> >> >> >> > > 稼働中にOSのメモリ使用量が増加し続ける問題が起 > >> きています。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> > > 原因を把握したいのですが、何か該当する現象や確認 > >> ポイント > >> >>>>> >> >> >> などありますでしょうか? > >> >>>>> >> >> >> > >> >>>>> >> >> >> > >> >>>>> >> >> >> 環境は以下のようになっております。 > >> >>>>> >> >> >> OS: CentOS Linux > > release > >> > 7.2.1511 > >> >> (Core) > >> >>>>> >> >> >> kernel - > >> > 3.10.0-327.18.2.el7 > >> >>>>> >> >> >> glibc - > > 2.17-106.el7_2.6 > >> >>>>> >> >> >> Systemd: > > 219-19.el7_2.9 / > >> >>> 219-19.el7_2.12 (※) > >> >>>>> >> >> >> Pacemaker: > > 1.1.13-10.el7_2.2 > >> >>>>> >> >> >> Corosync: > > 2.3.4-7.el7_2.1 > >> >>>>> >> >> >> PostgreSQL: > > 9.4.8-1PGDG.rhel7 > >> >>>>> >> >> >> > >> >>>>> >> >> >> > > (※)systemdのバージョンはどちらでも発生しました > >> >>>>> >> >> >> > >> >>>>> >> >> >> > >> >>>>> >> >> >> > >> >> 2台のサーバでHotStandby構成にしてPostgreSQLを運用していま > >> >>>>> す。 > >> >>>>> >> >> >> > >> >> (両サーバでPostgreSQLが起動し、hot-standby構成にしている) > >> >>>>> >> >> >> > >> > Active側にVIPを割り当てるようにして、アプリケーションから > >> >>>>> は > >> >>>>> >> >> >> VIPに接続するようにしています。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> > > これまでに観察して見えているのは以下の事象になり > >> ます。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> (1) > > OS起動しクラスタ状態を正常にした状態で、少し > >> ずつ > >> >>>>> >> >> >> > >> >> OSの空きメモリ量(free+buffer+cache)が減少し続ける。 > >> >>>>> >> >> >> > > →1日あたり30~100MB程度ずつ減少する > >> >>>>> >> >> >> > > ※DBサーバ自体は4GBメモリを搭載 > >> >>>>> >> >> >> > > ※VIPがある/なしに関わらず減少傾向にある。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> (2) > >> > メモリ使用量が大きいプロセスを確認すると、PID=1の > >> >>>>> >> >> >> systemd > >> > プロセスで、数十秒ごとに4~8KB程度増加する。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> (3) > >> > 契機は不明だが、時折数十~数百MB程度空き容量が増える > >> >>>>> >> >> >> (回復する)ことがある。 > >> >>>>> >> >> >> > > (長期的に見てトータルでは減少し続ける) > >> >>>>> >> >> >> > >> >>>>> >> >> >> (4) pacemaker + > >> >>> corosyncを使わず、1台のみで動作させている > >> >>>>> >> >> >> > > 開発サーバでは(1)~(2)のようなメモリ使用量の > >> 増減が > >> >>>>> >> >> >> 発生していないように見える。 > >> >>>>> >> >> >> > > →この点があり、何か手がかりが無いかと考え、 > >> >>>>> >> >> >> > > こちらのMLに質問をポストさせていただきま > >> した。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> > >> >>>>> >> >> >> > > 長文にて恐縮ですが、情報等いただけましたら幸いで > >> す。 > >> >>>>> >> >> >> よろしくお願い致します。 > >> >>>>> >> >> >> > >> >>>>> >> >> >> ---------------- > >> >>>>> >> >> >> AKIBA Makoto > >> >>>>> >> >> >> > > akiba****@acroq***** > >> >>>>> >> >> >> > >> >>>>> >> >> >> > >> >>>> _______________________________________________ > >> >>>>> >> >> >> Linux-ha-japan > > mailing list > >> >>>>> >> >> >> > > Linux****@lists***** > >> >>>>> >> >> >> > >> >>>> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>>> >> >> >> > >> >>>>> >> >> > > >> >>>>> >> >> > > >> >>> _______________________________________________ > >> >>>>> >> >> > Linux-ha-japan mailing > > list > >> >>>>> >> >> > > > Linux****@lists***** > >> >>>>> >> >> > > >> >>>> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>>> >> >> > > >> >>>>> >> >> > >> >>>>> >> >> > >> >> _______________________________________________ > >> >>>>> >> >> Linux-ha-japan mailing list > >> >>>>> >> >> Linux****@lists***** > >> >>>>> >> >> > >> >>> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>>> >> > > >> >>>>> >> > > >> > _______________________________________________ > >> >>>>> >> > Linux-ha-japan mailing list > >> >>>>> >> > Linux****@lists***** > >> >>>>> >> > > >> >> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>>> >> > > >> >>>>> >> > >> >>>>> >> > > _______________________________________________ > >> >>>>> >> Linux-ha-japan mailing list > >> >>>>> >> Linux****@lists***** > >> >>>>> >> > >> > http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>>> > > > _______________________________________________ > >> >>>>> > Linux-ha-japan mailing list > >> >>>>> > Linux****@lists***** > >> >>>>> > > > http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>>> > > >> >>>>> > >> >>>>> _______________________________________________ > >> >>>>> Linux-ha-japan mailing list > >> >>>>> Linux****@lists***** > >> >>>>> > > http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>> _______________________________________________ > >> >>>> Linux-ha-japan mailing list > >> >>>> Linux****@lists***** > >> >>>> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>>> > >> >>> > >> >>> _______________________________________________ > >> >>> Linux-ha-japan mailing list > >> >>> Linux****@lists***** > >> >>> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >>> > >> >> > >> >> _______________________________________________ > >> >> Linux-ha-japan mailing list > >> >> Linux****@lists***** > >> >> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> >> > >> > > >> > _______________________________________________ > >> > Linux-ha-japan mailing list > >> > Linux****@lists***** > >> > http://lists.osdn.me/mailman/listinfo/linux-ha-japan > >> > > >> > >> _______________________________________________ > >> Linux-ha-japan mailing list > >> Linux****@lists***** > >> http://lists.osdn.me/mailman/listinfo/linux-ha-japan > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.osdn.me/mailman/listinfo/linux-ha-japan > > > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.osdn.me/mailman/listinfo/linux-ha-japan