argra****@users*****
argra****@users*****
2009年 3月 5日 (木) 22:25:11 JST
Index: docs/modules/utf8-1.07/utf8.pod diff -u /dev/null docs/modules/utf8-1.07/utf8.pod:1.1 --- /dev/null Thu Mar 5 22:25:11 2009 +++ docs/modules/utf8-1.07/utf8.pod Thu Mar 5 22:25:11 2009 @@ -0,0 +1,429 @@ + +=encoding euc-jp + +=head1 NAME + +=begin original + +utf8 - Perl pragma to enable/disable UTF-8 (or UTF-EBCDIC) in source code + +=end original + +utf8 - ソースコード内に、UTF-8(か、UTF-EBCDIC)を有効/無効にするためのプラグマ + +=head1 SYNOPSIS + + use utf8; + no utf8; + + # Convert a Perl scalar to/from UTF-8. + $num_octets = utf8::upgrade($string); + $success = utf8::downgrade($string[, FAIL_OK]); + + # Change the native bytes of a Perl scalar to/from UTF-8 bytes. + utf8::encode($string); + utf8::decode($string); + + $flag = utf8::is_utf8(STRING); # since Perl 5.8.1 + $flag = utf8::valid(STRING); + +=head1 DESCRIPTION + +=begin original + +The C<use utf8> pragma tells the Perl parser to allow UTF-8 in the +program text in the current lexical scope (allow UTF-EBCDIC on EBCDIC based +platforms). The C<no utf8> pragma tells Perl to switch back to treating +the source text as literal bytes in the current lexical scope. + +=end original + +C<use utf8> プラグマは、Perl パーサーに、現在のレキシカルスコープ内の +プログラムのテキストに、UTF-8(EBCDIC ベースのプラットフォームなら、UTF-EBCDIC) +を許すように伝えます。 +C<no utf8> プラグマは Perl に、現在のレキシカルスコープのソーステキストを +リテラルなバイトとして扱うように伝えます。 + +=begin original + +B<Do not use this pragma for anything else than telling Perl that your +script is written in UTF-8.> The utility functions described below are +directly usable without C<use utf8;>. + +=end original + +B<スクリプトが UTF-8 で書かれているということを Perl に教える目的以外で +このプラグマをつかってはいけません。> +下に書かれているユーティリティ関数は、C<use utf8;> なしで +直接使えます。 + +=begin original + +Because it is not possible to reliably tell UTF-8 from native 8 bit +encodings, you need either a Byte Order Mark at the beginning of your +source code, or C<use utf8;>, to instruct perl. + +=end original + +ネイティブな 8 ビットエンコーディングから UTF-8 であると確実に +知らせることは不可能なので、perl に知らせるためにソースコードの先頭に +バイト順マークを置くか、C<use utf8;> を指定するかのどちらかが必要です。 + +=begin original + +When UTF-8 becomes the standard source format, this pragma will +effectively become a no-op. For convenience in what follows the term +I<UTF-X> is used to refer to UTF-8 on ASCII and ISO Latin based +platforms and UTF-EBCDIC on EBCDIC based platforms. + +=end original + +UTF-8 が標準ソースフォーマットとなったときには、 +このプラグマは事実上何もしなくなります。 +利便性のために、以下での I<UTF-X> という単語は、 +ASCII と ISO Latin ベースのプラットフォームでは UTF-8 を示し、 +EBCDIC ベースのプラットフォームでは UTF-EBCDIC を示すものとします。 + +=begin original + +See also the effects of the C<-C> switch and its cousin, the +C<$ENV{PERL_UNICODE}>, in L<perlrun>. + +=end original + +L<perlrun> にある、C<-C> スイッチ及びそのいとこの C<$ENV{PERL_UNICODE}> の +効果も参照してください。 + +=begin original + +Enabling the C<utf8> pragma has the following effect: + +=end original + +C<utf8> プラグマを有効にすると次の効果があります: + +=over 4 + +=item * + +=begin original + +Bytes in the source text that have their high-bit set will be treated +as being part of a literal UTF-X sequence. This includes most +literals such as identifier names, string constants, and constant +regular expression patterns. + +=end original + +高ビットのセットのあるソーステキストにあるバイトは、 +リテラルの UTF-X シーケンスの部分として扱われます。 +このことは、ほとんどのリテラル、識別子の名前、 +文字列定数、正規表現パターン定数も含みます。 + +=begin original + +On EBCDIC platforms characters in the Latin 1 character set are +treated as being part of a literal UTF-EBCDIC character. + +=end original + +EBCDIC プラットフォームでは、Latin 1 文字集合の文字は、 +リテラルの UTF-EBCDIC の文字として扱われます。 + +=back + +=begin original + +Note that if you have bytes with the eighth bit on in your script +(for example embedded Latin-1 in your string literals), C<use utf8> +will be unhappy since the bytes are most probably not well-formed +UTF-X. If you want to have such bytes under C<use utf8>, you can disable +this pragma until the end the block (or file, if at top level) by +C<no utf8;>. + +=end original + +スクリプト内に 8 ビットのバイト列がある(たとえば、文字列リテラルに +Latin-1 がある)なら、C<use utf8> は不幸をもたらすでしょう; +バイト列は、ほとんどの場合、適切な UTF-X ではないからです。 +C<use utf8> 内でそのようなバイト列を使いたい場合は、ブロック(または、 +最上部に書けば、ファイル)の終わりまで、C<no utf8;> で、utf8 を +無効にできます。 + +=head2 Utility functions + +(ユーティリティ関数) + +=begin original + +The following functions are defined in the C<utf8::> package by the +Perl core. You do not need to say C<use utf8> to use these and in fact +you should not say that unless you really want to have UTF-8 source code. + +=end original + +下記の関数は、Perl core によって、C<utf8::> パッケージに定義されています。 +これらの関数を使うのに、C<use utf8> する必要はありませんし、 +実際、本当に UTF-8 のソースコードを書こうとするのでないなら、 +C<use utf8> すべきではありません。 + +=over 4 + +=item * $num_octets = utf8::upgrade($string) + +=begin original + +Converts in-place the internal octet sequence in the native encoding +(Latin-1 or EBCDIC) to the equivalent character sequence in I<UTF-X>. +I<$string> already encoded as characters does no harm. Returns the +number of octets necessary to represent the string as I<UTF-X>. Can be +used to make sure that the UTF-8 flag is on, so that C<\w> or C<lc()> +work as Unicode on strings containing characters in the range 0x80-0xFF +(on ASCII and derivatives). + +=end original + +ネイティブエンコーディング (Latin-1 や EBCDIC) の内部オクテットシーケンスを、 +等価な I<UTF-X> の文字シーケンスに適切に変換します。 +I<$string> が既に文字としてエンコードされている場合は何もしません。 +I<UTF-X> として、文字列を表現するのに必要なオクテットの数を返します。 +UTF-8 フラグがオンであることを確認するのに使えます; +ですので、C<\w> や C<lc()> は、(ASCII とその派生では) 0x80-0xFF の +文字を含む文字列で期待されるように動きます。 + +=begin original + +B<Note that this function does not handle arbitrary encodings.> +Therefore Encode is recommended for the general purposes; see also +L<Encode>. + +=end original + +B<この関数は、任意のエンコーディングを扱えるわけではないことに +注意してください。> +従って、一般的な用途では Encode を推奨します; L<Encode> も +参照してください。 + +=item * $success = utf8::downgrade($string[, FAIL_OK]) + +=begin original + +Converts in-place the internal octet sequence in I<UTF-X> to the +equivalent octet sequence in the native encoding (Latin-1 or EBCDIC). +I<$string> already encoded as native 8 bit does no harm. Can be used to +make sure that the UTF-8 flag is off, e.g. when you want to make sure +that the substr() or length() function works with the usually faster +byte algorithm. + +=end original + +I<UTF-X>の内部オクテットシーケンスを、 +等価なネイティブエンコーディング (Latin-1 や EBCDIC) の +内部オクテットシーケンスに適切に変換します。 +I<$string> が既にネイティブな 8 ビットとしてエンコードされている場合は +何もしません。 +たとえば、substr() や length()関数が、 +通常はより速いバイトアルゴリズムで動くようにしたい場合、 +UTF-8フラグがオフであるのを確認するのに使えます。 + +=begin original + +Fails if the original I<UTF-X> sequence cannot be represented in the +native 8 bit encoding. On failure dies or, if the value of C<FAIL_OK> is +true, returns false. + +=end original + +元の I<UTF-X> シーケンスがネイティブな 8 ビットエンコーディングで +表現できない場合は失敗します。 +失敗したときには、C<FAIL_OK> の値が真の場合は偽を返し、そうでない場合は +die します。 + +=begin original + +Returns true on success. + +=end original + +成功すると真を返します。 + +=begin original + +B<Note that this function does not handle arbitrary encodings.> +Therefore Encode is recommended for the general purposes; see also +L<Encode>. + +=end original + +B<この関数は、任意のエンコーディングを扱えるわけではないことに +注意してください。> +従って、一般的な用途では Encode を推奨します; L<Encode> も +参照してください。 + +=item * utf8::encode($string) + +=begin original + +Converts in-place the character sequence to the corresponding octet +sequence in I<UTF-X>. The UTF8 flag is turned off, so that after this +operation, the string is a byte string. Returns nothing. + +=end original + +文字シーケンスを、対応する I<UTF-X> のオクテットシーケンスに +適切に変換します。 +UTF8 フラグはオフになるので、この操作の後、文字列は +バイト文字列になります。 +何も返しません。 + +=begin original + +B<Note that this function does not handle arbitrary encodings.> +Therefore Encode is recommended for the general purposes; see also +L<Encode>. + +=end original + +B<この関数は、任意のエンコーディングを扱えるわけではないことに +注意してください。> +従って、一般的な用途では Encode を推奨します; L<Encode> も +参照してください。 + +=item * $success = utf8::decode($string) + +=begin original + +Attempts to convert in-place the octet sequence in I<UTF-X> to the +corresponding character sequence. The UTF-8 flag is turned on only if +the source string contains multiple-byte I<UTF-X> characters. If +I<$string> is invalid as I<UTF-X>, returns false; otherwise returns +true. + +=end original + +I<UTF-X> のオクテットシーケンスを、対応する文字シーケンスに +適切に変換しようとします。 +UTF-8 フラグは、元の文字列が複数バイトの I<UTF-X> 文字を含んでいる場合にのみ +オンになります。 +もし I<$string> が I<UTF-X> として不正なら、偽を返します; +さもなければ真を返します。 + +=begin original + +B<Note that this function does not handle arbitrary encodings.> +Therefore Encode is recommended for the general purposes; see also +L<Encode>. + +=end original + +B<この関数は、任意のエンコーディングを扱えるわけではないことに +注意してください。> +従って、一般的な用途では Encode を推奨します; L<Encode> も +参照してください。 + +=item * $flag = utf8::is_utf8(STRING) + +=begin original + +(Since Perl 5.8.1) Test whether STRING is in UTF-8 internally. +Functionally the same as Encode::is_utf8(). + +=end original + +(Perl 5.8.1から) STRING が、内部的に UTF-8 かどうかをテストします。 +機能的には、Encode::is_utf8() と同じです。 + +=item * $flag = utf8::valid(STRING) + +=begin original + +[INTERNAL] Test whether STRING is in a consistent state regarding +UTF-8. Will return true is well-formed UTF-8 and has the UTF-8 flag +on B<or> if string is held as bytes (both these states are 'consistent'). +Main reason for this routine is to allow Perl's testsuite to check +that operations have left strings in a consistent state. You most +probably want to use utf8::is_utf8() instead. + +=end original + +[内部関数] STRING が UTF-8 として一貫しているかを調べます。 +STRING が well-formed UTF-8 で UTF-8 フラグがオンの場合 B<または> +文字列がバイトとして保持されている場合に真を返します +(両方とも状態は「一貫して」います)。 +このルーチンの主目的は、 +ある操作が文字列を一貫した状態に保っているかをPerl のテストスイートが +調べられるようにすることです。 +おそらくたいていの場合は代わりに utf8::is_utf8() を使いたいはずです。 + +=back + +=begin original + +C<utf8::encode> is like C<utf8::upgrade>, but the UTF8 flag is +cleared. See L<perlunicode> for more on the UTF8 flag and the C API +functions C<sv_utf8_upgrade>, C<sv_utf8_downgrade>, C<sv_utf8_encode>, +and C<sv_utf8_decode>, which are wrapped by the Perl functions +C<utf8::upgrade>, C<utf8::downgrade>, C<utf8::encode> and +C<utf8::decode>. Also, the functions utf8::is_utf8, utf8::valid, +utf8::encode, utf8::decode, utf8::upgrade, and utf8::downgrade are +actually internal, and thus always available, without a C<require utf8> +statement. + +=end original + +C<utf8::encode> は、C<utf8::upgrade> に似ていますが、UTF8 フラグが +削除されます。 +UTF8 フラグの詳細および、Perl 関数の C<utf8::upgrade>, +C<utf8::downgrade>, C<utf8::encode>, C<utf8::decode> でラッピングされている +C API 関数 C<sv_utf8_upgrade>, C<sv_utf8_downgrade>, +C<sv_utf8_encode>, C<sv_utf8_decode> については L<perlunicode> を +参照してください。 +また、utf8::is_utf8, utf8::valid, +utf8::encode, utf8::decode, utf8::upgrade, utf8::downgrade は、 +実際には内部関数なので、常に C<require utf8> なしで利用可能になっています。 + +=head1 BUGS + +=begin original + +One can have Unicode in identifier names, but not in package/class or +subroutine names. While some limited functionality towards this does +exist as of Perl 5.8.0, that is more accidental than designed; use of +Unicode for the said purposes is unsupported. + +=end original + +識別子の名前として Unicode を使えますが、パッケージ/クラスや +サブルーチンの名前としては使えません。 +Perl 5.8.0 からはこれに関する限定された機能が存在しますが、 +これらは予定されたものというよりは偶然の産物です; +このような目的で Unicode を使うことは非サポートです。 + +=begin original + +One reason of this unfinishedness is its (currently) inherent +unportability: since both package names and subroutine names may need +to be mapped to file and directory names, the Unicode capability of +the filesystem becomes important-- and there unfortunately aren't +portable answers. + +=end original + +この不完全性の原因の一つは(現在のところ)先天的な非移植性です; +パッケージ名とサブルーチン名はそれぞれファイルとディレクトリ名に +対応付けられる必要があるので、ファイルシステムの Unicode 対応が +重要となります -- そして残念ながら移植性のある答えが存在しません。 + +=head1 SEE ALSO + +L<perlunitut>, L<perluniintro>, L<perlrun>, L<bytes>, L<perlunicode> + +=begin meta + +Created: Ktat <ktat****@kawac*****> +Updated: Kentaro Shirakata <argra****@ub32*****> (1.07) + +=end meta + +=cut +