Yuichi Yoshida
oxy****@kmc*****
2005年 9月 26日 (月) 17:19:28 JST
> ここで念頭にあるのは地名の扱いで、ちょっと考えるだけで > 「〜市」「〜町」「〜村」「〜人」「〜駅」「〜川」など色々あって > それをあらかじめ展開しておくのはもったいない気がしてました。 > 継承を実際に使うかどうかはわからないです。 えと、もったいないというのは作業量的にということですか? でも、今のplacename.tは既に殆ど展開してあるので、むしろ #<や#>に統一する方が面倒ですよね。 新しい地名だけ#<や#>を使うというなら分かりますが…。 辞書の容量的にということなら、計ってみないと分かりませんが、 多分大したことはないと思います。 > 一度、この形式で作っておけば、wordlist.cの中から接尾辞を検索する > 時に使うだけではなく、その時の都合で wordlist.cで辞書の情報を元に接尾辞を検索するぐらいなら、 最初から展開したものを辞書に登録しておけば良いと思います。 もったいない理由が分かってないので、 的外れなことを言っているかもしれませんが。 > *辞書ファイルを適当なスクリプトに入力して、いままでの形式に > 展開した辞書を作る > *mkanthydicコマンド内でいままでの形式に展開する > *無視する > といった選択が可能です > ;;展開について、 > ;;「おおさか #CN #<ふ*府 大阪」を展開すると > ;;「おおさか #CN 大阪」と「おおさかふ #CNS 大阪府」の2語になる > > 確かに有用性が読めない面もあるので、とりあえず、 > 「mkanthydicでこの形式を展開できるようにしておく」ところまで > コードを書いてみようと思いますが、どうでしょうか? うーん、やっぱり辞書を書く量が微妙に減るぐらいしか、 有用性が分からないです。。。 無視するというオプションはそれほど大事ではありませんし、 結局展開して使うしか無いならば、 わざわざ新文法を追加するほどのことは無いかなと。 それより接頭辞、接尾辞に関して言うと「祖業+列」や「いろいろ+あり|鱒」 (+が接尾辞、接頭辞の接続、|が文節区切り) のような変換の方が問題だと思っています。 これを防ぐ手段の方を先に考えたいのですが、 今のところ名詞x(接頭辞、接尾辞)の行列を 生成することぐらいしか思い付いていません。 でも流石にこれはノイズが混じりすぎて使えないような気が直感的にはしています。 何か良い方法を思い付ければ良いのですが…。 ---- 吉田 悠一 oxy****@kmc***** http://mono.kmc.gr.jp/~oxy/