[MUSASHI-users 447] Re: テキストファイルと XML テーブルで xtcount の結果が異なる

Back to archive index

nakahara nakap****@yahoo*****
2004年 12月 22日 (水) 01:44:13 JST


中原です。

以下で問題となるのはソートだと思います。
テキスト形式で実行するとMUSASHIは
自動でソートしてくれませんので、
xtcountを使用する前にキー項目のソートが必要だと
思います。

xtcountの前に以下のソートを付け加えて実行して見てくださ
い。

xtsort -t -k1,2 |

これで問題なく動作すると思います。

--- Sumio Ebisawa <ebisa****@aa*****> からのメッセー
ジ:
> 海老澤です。お世話になります。
> 
> 
> musashiを利用したアクセスログ解析システムを構築中です
。ログ
> ファイルを「会員ID URL 時間
> 参照元」と並べ替えたログファイルを
> 会員IDとURLの組み合わせで集計したいと考えています。
> 
> つまり
> 
> 001 /a.html 2月1日 www.yahoo.co.jp
> 001 /b.html 2月1日 www.yahoo.co.jp
> 001 /a.html 2月1日 www.yahoo.co.jp
> 002 /a.html 2月1日 www.yahoo.co.jp
> 003 /a.html 2月1日 www.yahoo.co.jp
> 
> というデータを
> 
> 001 /a.html 1
> 001 /b.html 2
> 002 /a.html 1
> 003 /a.html 1
> 
> とまとめたいわけです。
> 
> txt2xt -aID,URL,TIME,REF -l test -i
> 【ログファイル】| xtcut -fID,URL |
> xtcount -kID,SI -a PV -o 【出力結果】
> 
> で問題なく処理できたのですが、これをXMLテーブルを使用
しない形
> 
> xtcut -f1,2-i 【ログファイル】| xtcount -k1,2 -o
> 【出力結果】
> 
> で実行すると、同じ会員IDとURLの組み合わせがマージされ
たり
> されなかったり、という現象が発生しています。
> 
> 検証用に少ないデータで実行すると問題ないのですが、100
万行くらい
> かけると誤差(最終的に足し合わせれば数字は合うのですが
)が発生
> します。なにか、私の設定で足りないところがあるのでしょ
うか?
> 
> 
> 
> 
> 
> 
> _______________________________________________
> MUSASHI-users mailing list
> MUSAS****@lists*****
>
http://lists.sourceforge.jp/mailman/listinfo/musashi-users




MUSASHI-users メーリングリストの案内
Back to archive index