nakahara
nakap****@yahoo*****
2004年 12月 22日 (水) 01:44:13 JST
中原です。 以下で問題となるのはソートだと思います。 テキスト形式で実行するとMUSASHIは 自動でソートしてくれませんので、 xtcountを使用する前にキー項目のソートが必要だと 思います。 xtcountの前に以下のソートを付け加えて実行して見てくださ い。 xtsort -t -k1,2 | これで問題なく動作すると思います。 --- Sumio Ebisawa <ebisa****@aa*****> からのメッセー ジ: > 海老澤です。お世話になります。 > > > musashiを利用したアクセスログ解析システムを構築中です 。ログ > ファイルを「会員ID URL 時間 > 参照元」と並べ替えたログファイルを > 会員IDとURLの組み合わせで集計したいと考えています。 > > つまり > > 001 /a.html 2月1日 www.yahoo.co.jp > 001 /b.html 2月1日 www.yahoo.co.jp > 001 /a.html 2月1日 www.yahoo.co.jp > 002 /a.html 2月1日 www.yahoo.co.jp > 003 /a.html 2月1日 www.yahoo.co.jp > > というデータを > > 001 /a.html 1 > 001 /b.html 2 > 002 /a.html 1 > 003 /a.html 1 > > とまとめたいわけです。 > > txt2xt -aID,URL,TIME,REF -l test -i > 【ログファイル】| xtcut -fID,URL | > xtcount -kID,SI -a PV -o 【出力結果】 > > で問題なく処理できたのですが、これをXMLテーブルを使用 しない形 > > xtcut -f1,2-i 【ログファイル】| xtcount -k1,2 -o > 【出力結果】 > > で実行すると、同じ会員IDとURLの組み合わせがマージされ たり > されなかったり、という現象が発生しています。 > > 検証用に少ないデータで実行すると問題ないのですが、100 万行くらい > かけると誤差(最終的に足し合わせれば数字は合うのですが )が発生 > します。なにか、私の設定で足りないところがあるのでしょ うか? > > > > > > > _______________________________________________ > MUSASHI-users mailing list > MUSAS****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/musashi-users