インテルコンパイラーでオープンソースソフトウェアをコンパイルしよう

　インテルの「インテル C++ コンパイラー」は高速なバイナリを生成するということで知られている。いっぽうWindowsの世界ではマイクロソフトのVisual C++が、LinuxではオープンソースのGCCが事実上標準のコンパイラになっており、多くのオープンソースソフトウェアはこれらのコンパイラでコンパイルされている。そのため、利用したいソフトウェアがインテルコンパイラーでコンパイルできるのか興味のある人も多いだろう。また、Visual C++やGCCでコンパイルされたものと比べ、どのくらいパフォーマンスが違うのかも気になるところだ。

　インテル C++ コンパイラーはVisual C++やGCCとの互換性を備えているものの、完全に同一というわけではない。そこで、有名なオープンソースソフトウェアについてインテル C++ コンパイラーでのコンパイルを行い、どの程度の修正でコンパイルが可能なのか、またそのパフォーマンスはどうなのか、調査してみよう。

　なお、今回の記事ではインテル C++コンパイラー 11.0の無償体験版を使用している。この体験版はインテルコンパイラーの国内代理店であるエクセルソフトのWebサイトからダウンロード可能だ。ぜひ読者の皆さんも手元でインテルコンパイラーを試してほしい。

オープンソースソフトウェアでも実績が多いインテルコンパイラー

　実際の作業を説明する前に、まずはインテルコンパイラーでのコンパイルを利用するにあたって役に立つであろう資料を紹介しておこう。

　まず、インテルコンパイラーのもっとも貴重な情報源となるのが、開発元であるインテルのWebサイトである。インテルのWebサイトでは、LinuxカーネルやSTLport、POV-rayなどのソフトウェアについて、インテルコンパイラーでのコンパイル方法を解説したドキュメントが公開されている（表1）。

　用意されているドキュメントは数値演算系や画像処理系のソフトウェア/ライブラリが多いが、これらはインテルコンパイラーが得意とする領域であり、高速化が期待できる。もしこれらのソフトウェア/ライブラリを利用しているなら、インテルコンパイラーを試してみる価値があるだろう。

表1 インテルのWebサイトで公開されているオープンソースソフトウェアのコンパイル解説ドキュメント

ソフトウェア	説明
Linuxカーネル	OS
PGPLOT	プロット画像作成ライブラリ
NCAR	ドロー画像ライブラリ
WRF	気象モデリングシステム
HDF5	クラスタライブラリ
UPC	並列言語処理系
FFTW	高速フーリエ変換ライブラリ
stlport	C++標準ライブラリ
POV-Ray	3D画像レンダラー
NetCDF	科学用データフォーマットライブラリ
Open MPI	並列化ライブラリ
HPCC bnechmark	ベンチマークツール
ACE+TAO	分散コンポーネント
Xerces	XML処理ライブラリ
Quantlib	金融/財務処理ライブラリ

　また、ソフトウェアによってはVisual C++やGCCでコンパイルしたバイナリだけでなく、インテルコンパイラーでコンパイルしたバイナリも配布されている場合がある（表2）。このようなバイナリは有志がコンパイルして配布していることが多く、公式版と比べてパフォーマンスが高いものが多いようだ。ただし、公開されているバージョンが古い場合もあるので注意してほしい。

表2 インテルコンパイラーでコンパイルされたバイナリが配布されているソフトウェア例

ソフトウェア	配布先/配布者
MySQL	公式ダウンロードページ
Blender	WoogieWorks Animation Studio
FFTW	Franz Franchetti
x264	seraphyのプログラム公開所（「x264 詰め合わせ」の「おまけ」以下）
lame	RAREWARES

　例えば、上記で配布されているBlenderのインテルコンパイラー版バイナリを使い、Core 2 Duo E6550（2.33GHz）を搭載したマシンでBlender Render Benchmarkで配布されているテストファイルをレンダリングしたところ、公式版よりも1.5倍程度高速であった（表3）。

表3 Blenderでテストファイル（test.blend）のレンダリングにかかった時間（3回の平均）

バイナリ	レンダリング時間
公式版（Visual C++ 2008 SP2）	3:13:18
インテルコンパイラー版（SSE3対応）	2:01:06

　また、「インテルコンパイラーの実力を測る――インテルコンパイラー版MySQLは本当に速いのか？」記事では、インテルコンパイラーによるMySQLの高速化についても調査しているので、そちらも参照してほしい。

インテルコンパイラーでコンパイルを行う際の注意点

　インテルコンパイラーでオープンソースソフトウェアをコンパイルする場合、基本的にはコンパイル設定ファイル（Visual Studioのプロジェクトファイル、もしくはMakefile）を書き換え、コンパイラとしてicl.exe（Windows版インテルコンパイラー）もしくはicc（Linux/Mac OS X版インテルコンパイラ－）を使用するように設定してやればよい。

Windows環境の場合

　Windows向けのオープンソースソフトウェアの場合、コンパイルにVisual Studioを使用するものと、makeコマンドを使用するものがある。Visual Studioを使用する場合、インテルコンパイラーに含まれるVisual Studio用プラグインを導入し、追加されるツールバーで「インテル C++を使用」ボタンをクリックすれば、自動的にコンパイルにインテルコンパイラーを使用する設定になる（図1）。また、プロジェクトの設定に「インテル固有」項目が追加されてインテル C++ コンパイラーのコンパイルオプションが設定できるようになるので、最適化の設定などはこちらで行う（図2）。

図1 Visual Studio用プラグインで追加される「インテル C++を使用」ボタン

図2 プロジェクトの設定ではGUIでコンパイルオプションが設定できる

　コンパイルにmakeコマンド（GNU makefile、もしくはVisual C++に付属するnmake）を利用するソフトウェアの場合はmakefileを手動で編集する必要があるため、若干の手間が必要だ。といっても、基本的にはMakefileなどの「cl」もしくは「cl.exe」を「icl.exe」に変更するだけのパターンが多い。そのほか、設定にconfigureスクリプトを利用するものについては後述のLinux環境でのコンパイル設定と同様のやり方で設定が行える。ただし、インテルコンパイラーのコンパイルオプションはWindows版とLinux/Mac OS X版とで異なるので、その点には注意が必要だ。Windows版インテルコンパイラーはVisual C++との互換性があるため、基本的にはVisual C++でのコンパイルと同様の方法でコンパイルできることが多い。

Linux環境の場合

　Linux環境の場合、ほとんどのソフトウェアはconfigureスクリプトを使用してコンパイル設定を行う。configureスクリプトには使用するコンパイラなどを指定する機能があるので、それを使用して「icc」をコンパイラとして利用するよう指定すればよい。多くのconfigureスクリプトでは、下記のように「CC=icc CXX=icpc CFLAGS="＜Cソースコードのコンパイルオプション＞" CXXFLAGS="＜C++ソースコードのコンパイルオプション＞"」を追加してconfigureスクリプトを実行すれば良いだろう。

$ ./configure CC=icc CXX=icpc CFLAGS="-O2 -ip"" CXXFLAGS="-O2 -ip"

　なお、それぞれの環境で利用できる最適化オプションについては、エクセルソフトの製品紹介ページで公開されている「11.0 コンパイラー最適化ガイド」という資料が参考になる。この資料には、インテルコンパイラーを使用した最適化の手順や、利用できる最適化オプションがまとめられている。このなかでも、特にパフォーマンスの向上に有効と見られるオプションを表4にまとめた。ただし、これらのオプションを闇雲に指定すると、逆にパフォーマンスが悪化する場合もあるようだ。コンパイラー最適化ガイドによると、これらのコンパイルオプションを使用する場合まずはO2オプションを使用してコンパイルを行い、続いてO3やip、ipo、parallelなどを指定してパフォーマンスを比較するのが好ましいとのことだ。

表4 パフォーマンス向上に有効と見られるコンパイルオプション

オプション		説明
Windows	Linux/Mac OS X	説明
/O1、/O2、/O3	-O1、-O2、-O3	最適化レベルを指定する。O1がコードサイズ最小化、O2が標準的な最適化となる。O3はより複雑な最適化が実行される
/Qparallel	-parallel	自動並列化を実行する
/Qpar-threshold	-par-threshold	自動並列化を行うかどうか判断するしきい値を指定する。0を指定すると常に並列化が行われ、100を指定すると確実に有効な場合のみ並列化が行われる
/QxSSE3	-xSSE3	Core 2シリーズなどに搭載されているSSE 3命令を使用する。このオプションを指定して作成したバイナリは、SSE 3命令を備えたCPUでのみ実行可能となる
/Qip	-ip	単一オブジェクト内にある関数間での最適化を実行する
/Qipo	-ipo	複数のファイルに対して、オブジェクトのリンク時に関数/オブジェクト間での最適化を実行する

図3 Windows版インストーラーのコンポーネント選択画面

Linux版の場合

　Linux版の場合、公式に動作確認が行われているディストリビューションは次の7つである。

Asianux 3.0
Debian GNU/Linux 4.0
Fedora 9
Red Hat Enterprise Linux 3～5
SUSE LINUX Enterprise Server 9、10
TurboLinux 11
Ubuntu 8.04

　これ以外の環境ではインストール時に警告が表示されるので注意してほしい。なお、今回は検証用の環境としてDebian GNU/Linux 5.0を使用したが、特に問題は発生していないようだ。

　また、動作にはlibstdc++.so.5が必要である。たとえばDebian GNU/Linuxでは、次のようにしてlibstdc++.so.5をインストールできる。

# apt-get install libstdc++5

　なお、インテル C++ コンパイラーはデフォルトでは/opt/intel/Compiler/11.0/＜リビジョン番号＞/以下にインストールされる。そのため、コンパイルを行う前にはコンパイラ本体やライブラリがあるディレクトリにパスを通しておく必要がある。インストールディレクトリ内の「bin/」ディレクトリ以下にある「iccvars.sh」という環境設定用シェルスクリプトを読み込むことで必要な環境変数の設定が行われるので、コンパイルやconfigureスクリプトの実行前にこのシェルスクリプトを読み込んでおこう。ホームディレクトリにこのスクリプトのシンボリックリンクを作っておくと便利だ。

$ ln -s /opt/intel/Compiler/11.0/074/bin/iccvars.sh ~/
$ . ~/iccvars ia32

Linux環境でのコンパイル――bzip2

　まずは小手調べとして、さまざまなプラットフォームで動作するコマンドラインのファイル圧縮ツール「bzip2」をLinux版のインテルコンパイラーでコンパイルしてみよう。Windowsユーザーにはあまりなじみが無いかもしれないが、bzip2は主にUNIX/Linux環境で多く利用されている、高圧縮を誇る圧縮ツールである。記事執筆時点での最新版は2008年3月にリリースされている1.0.5だ。

　bzip2のソースコードは、Webサイトのダウンロードページからダウンロードできる。コンパイル方法はシンプルで、含まれるMakefileを環境に応じて編集し、makeを実行するだけである。今回編集する個所は下記のとおりだ。

CC=gcc
AR=ar
RANLIB=ranlib
LDFLAGS=

BIGFILES=-D_FILE_OFFSET_BITS=64
CFLAGS=-Wall -Winline -O2 -g $(BIGFILES)

を以下のように変更

CC=icc
AR=xiar
RANLIB=ranlib
LDFLAGS=

BIGFILES=-D_FILE_OFFSET_BITS=64
CFLAGS=-Wall -Winline ＜最適化オプション＞ $(BIGFILES)

　また、コンパイルオプションについては、表4のようにインテルコンパイラー（ICC）9通りと、GCC（-O2オプション）1通りの合計10通りを用意し、それぞれの設定でコンパイルしたバイナリのパフォーマンスの違いを計測する。

表4 比較に使用した最適化オプション

名称	コンパイラ	最適化オプション
icc:O1	ICC	-O1
icc:O2	ICC	-O2
icc:O3	ICC	-O3
icc:O2/ip	ICC	-O2 -ip
icc:O3/ip	ICC	-O3 -ip
icc:O2/ipo	ICC	-O2 -ipo
icc:O3/ipo	ICC	-O3 -ipo
icc:O3/ip/para	ICC	-O3 -ip -parallel -par-threshold90
icc:O3/ip/SSSE3	ICC	-O3 -ip -xSSSE3
gcc	gcc	-O2

　なお、bzip2はWindows環境でもコンパイル可能だ。Window版インテル C++ コンパイラーでコンパイルする場合は、付属しているWindows環境向けのmakefile（makefile.msc）を下記のように修正し、これを「nmake -f makefile.msc」のようにVisual C++付属のnmakeコマンドの引数として指定すればよい。

CC=cl
CFLAGS= -DWIN32 -MD -Ox -D_FILE_OFFSET_BITS=64 -nologo

を以下のように変更

CC=icl
CFLAGS= -DWIN32 -MD ＜最適化オプション＞ -D_FILE_OFFSET_BITS=64 -nologo

実行結果を比較する

　パフォーマンスの比較には、Firefox 3.1b2のソースアーカイブ（firefox-3.1b2-source.tar.bz2、約40MB）を利用した。このファイルを展開するのにかかった時間と、展開したファイルを再度圧縮するのにかかった時間を3回測定し、その平均を結果としている。展開および圧縮は、次のようなコマンドラインオプションで実行した。なお、HDDアクセスのオーバーヘッドが結果に影響しないよう、出力先として/dev/nullデバイスを指定してファイルへの書き込みを行わないようにしている。

展開：
$ ./bzip2 -c -k -d firefox-3.1b2-source.tar.bz2  /dev/null

圧縮：
$ ./bzip2 -k -z --best firefox-3.1b2-source.tar  /dev/null

　また、テストに使用したPC環境は表5のようなCore 2 Duoマシンだ。

表5 ベンチマークテストに使用したPCのスペック

構成要素	スペック
CPU	Core 2 Duo E6550（2.33GHz）
OS	Debian GNU/Linux 5.0
メモリ	2GB
HDD（OS）	Seagate Barracuda 7200.10（250GB）

　さて、それではベンチマーク結果を見てみよう。図4が圧縮にかかった時間、図5が展開にかかった時間をまとめたものだ。まず、圧縮の場合について見てみると、インテルコンパイラーでコンパイルしたものはGCCでコンパイルしたものに比べ、6割強の時間で作業が完了している。また、「-ip」オプションを付けてコンパイルしたものがもっとも速かったものの、コンパイルオプションを変えた場合でも実行時間には大幅な変化は見られなかった。

　また、圧縮ファイルを展開する作業については、インテルコンパイラーでコンパイルすることでGCCと比べ1割程度の高速化が可能だった。こちらの場合は、もっとも高速だったのは「-O2 -ipo」オプション付きでコンパイルしたバイナリであった。

図4 bzip2のファイル圧縮ベンチマーク結果

図5 bzip2のファイル展開ベンチマーク結果

Windows環境でのコンパイル――ImageMagick

　続いて、Windows環境でコンパイルできるオープンソースソフトウェアの例として、画像のバッチ処理ツール「ImageMagick」をコンパイルしてみよう。ImageMagickは画像のリサイズやフォーマット変換、結合など、さまざまな処理をバッチ処理できるコマンドラインツールだ。

　Windows環境でのImageMagickのコンパイルはInstall from Sourceページで解説されているが、まず設定ツールをビルドして実行することでVisual Studio用のプロジェクトファイルが作成され、次にそのプロジェクトファイルをVisual Studioで開いてビルドする、という手順となる。Windows向けの設定ツールはWindows向けソースパッケージにのみ含まれているので、こちらをダウンロードしよう。

　ZIPアーカイブを展開すると、「VisualMagick\configure」ディレクトリ以下に「configure.vcproj」というプロジェクトファイルが含まれているので、これをVisual Studioで開き、まずデフォルト設定のままでコンパイルを行う。すると、同じディレクトリ内に「configure.exe」という実行ファイルができるので、続けてこれを実行する。

　このconfigure.exeは、Windows環境向けのコンパイル設定ツールで、ウィザードに従って出力ディレクトリや共有ライブラリ/静的ライブラリのどちらを使うかなどを指定することで、Visual Studio用のプロジェクトファイルを生成できる（図6）。これで作成されたプロジェクトファイルをVisual Studioで開き、コンパイルオプションなどを設定後、プロジェクトのビルドを実行するとImageMagickがビルドされる。

図6 ImageMagickに含まれるコンパイル設定ツール

　configure.exeでは共有ライブラリ（DLL）の使用/不使用や中間ファイルおよび出力ファイルの保存先などを指定できるが、今回はすべてデフォルトのまま、共有ライブラリを使用する設定を使用した。なお、出力されるプロジェクトファイルはVisual Studio 7（Visual Studio .NET）形式であるが、Visual Studio 2005/2008でも問題なく開くことができた。

　コンパイルオプションについては、表6のようにインテルコンパイラー（ICC）7通りと、Visual C++（VC++）1通りの合計8通りを用意し、それぞれの設定でコンパイルしたバイナリのパフォーマンスの違いを計測する。それ以外のコンパイルオプションについては、表7、図7のように設定した。

表6 使用したコンパイルオプション

設定名	コンパイラ	コンパイルオプション
ICC:O2	ICC	/O2
ICC:O2/ip	ICC	/O2 /Qip
ICC:O2/ipo	ICC	/O2 /Qipo
ICC:O3	ICC	/O3
ICC:O3/ip	ICC	/O3 /Qip
ICC:O3/ipo	ICC	/O3 /Qipo
ICC:O3/parallel	ICC	/O3 /Qparallel /Qpar-threshold:90
ICC:O3/SSSE3	ICC	/O3 /QxSSSE3
VC++	VC++	/O2

表7 そのほかのコンパイルオプション設定（抜粋）

設定項目	設定値
グローバルな最適化	はい（/Og）
Windowsアプリケーションの最適化	はい（/GA）
インライン関数の展開	拡張可能な関数すべて（/Ob2）
組み込み関数を使用する	はい（/Oi）
フレームポインターなし	はい（/Oy）

図7 コンパイルオプション設定画面

実行結果

　ImageMagickには画像形式の変換や加工を行う「convert」や比較を行う「compare」、合成を行う「composite」などのコマンドが含まれているが、今回のベンチマークテストではこのうちconvertコマンドを使った3つの操作を行い、それぞれの処理にかかった時間を測定した（表8）。なお、ファイルアクセスによるオーバーヘッドが実行時間に影響しないよう、出力ファイルには「nul」を指定して実際のファイル出力は行わないようにしている。使用したPCの環境は表9のとおりだ。

表8 ベンチマークの詳細

処理名	処理の内容	実行するコマンドライン
resize	4000×3000のJPEG画像を8000×6000に拡大	convert.exe -resize 8000x6000 sample.JPG nul
blur	4000×3000のJPEG画像に半径100のぼかしフィルタを適用する	convert.exe -blur 100 sample.JPG nul
monochrome	4000×3000のJPEG画像をモノクロ化する	convert.exe -monochrome sample.JPG nul

表9 ベンチマークテストに使用したPCのスペック

構成要素	スペック
CPU	Core 2 Duo E6550（2.33GHz）
OS	Windows Vista Business SP1
メモリ	2GB
HDD（OS）	Seagate Barracuda 7200.10（250GB）

　以上の3つの処理を、8種類のバイナリに対して3回ずつ行い、その実行時間の平均を取ったものを今回のベンチマーク結果とした。それぞれの結果をまとめたものが図8～10である。

図8 resize処理の実行時間

図9 blur処理の実行時間

図10 monochrome処理の実行時間

　どのテストでももっとも高速だったのはインテルコンパイラーを使ってコンパイルしたものだったが、特に興味深いのはblur処理の結果であろう。blur処理の場合、自動並列化をオンにしてコンパイルしたバイナリはVisual C++でコンパイルしたバイナリよりも高速だったものの、並列化を利用しなかった場合はインテルコンパイラーでコンパイルしたバイナリのほうが遅くなる、という結果になってしまった。

　実はこのパフォーマンス低下はCPUのキャッシュミスが原因なのであるが、このようなソフトウェアのパフォーマンスなどに関わる問題はその原因がどこにあるか、またなぜ問題が発生しているのかを突き止めることが非常に難しい。このImageMagickでの問題の分析とパフォーマンス改善については『パフォーマンス解析ツール「VTune」でアプリケーションを高速化』で紹介しているので、詳細はこちらの記事を参照していただｓきたい。

さまざまなソフトウェアで高速化の恩恵が期待できる

　インテルコンパイラーは科学技術計算や統計処理などの分野での採用例が多いため、一般的なアプリケーションでの効果を疑問視する方もいるのでは無いだろうか。しかし、今回試したbzip2やImageMagickなど、一般的なアプリケーションであってもインテルコンパイラーの効果を確認することができた。また、コンパイルの際は大規模なソフトウェアでは多少の修正が必要だったり、設定にコツがあったりするものの、おおむねGCCやVisual C++との互換性は高い。

　特にI/OよりもCPUのボトルネックがパフォーマンスに効いてくる暗号化や圧縮/展開、画像/動画/音声処理などについては、十分にインテルコンパイラーを利用するメリットがあるのではないだろうか。

HPC/並列プログラミングポータル

新着トピックス

新着記事

インテルソフトウェア最新情報