Re: 重複符号化文字 (LE-talk-ja 234) - Legacy Encoding Project

森山です。

Nozomi Ytow <nozom****@biol*****> wrote:
> 少し考え直しました。
> 
> > * Microsoftも正規化している
> > http://support.microsoft.com/default.aspx?scid=kb;ja;JP170559
> 
> これは、CP932 から Unicode への変換の話で、CP932 とたとえば
> CP51932 の間の変換の根拠にはなりませんよね。ただ、たまたま
> Unicode を中間コードに用いているから、影響があるかもしれない
> 事ではあるわけです。で、

CP51932 や eucJP-ms、CP5022X では、CP932 での IBM拡張文字とNEC選定IBM
拡張文字を区別して扱う事は出来ませんので、Unicode への変換が絡まなくて
も重複符号化文字のレガシーエンコーディング間の変換では、Unicode と 
CP932 との間の変換と同様の問題が生じます。

レガシーエンコーディング間の変換で重複符号化文字を維持したまま変換可能
にする事に関しては、Windows と異なる重複符号化文字の扱いをする事は、メ
リットよりもデメリットの方が多くなってしまうのではないかと思います。

重複符号化文字を区別して扱う必要のあるケースというのがあるのかもしれま
せんが、そのようなケースは稀なケースと思われるので、そのように区別して
扱う必要のあるソフトウェアで、それぞれの事情に合わせて個別対応していく
のが良いのではないでしょうか?

ちなみに、Windows では、たとえば次の文字を、いわゆる機種依存文字のコー
ドポイントで入力しようとしても困難を極めるので、入力データとしては、ほ
とんど現れないといっても良い状況にあります。

  ∪∩∠⊥≡≒√∵∫¬

--
森山 将之 moriy****@mirac*****
ミラクル・リナックス株式会社

Legacy Encoding Project

[LE-talk-ja 234] Re: 重複符号化文字