Perl入門ゼミ

テキスト処理、Linuxサーバー管理、Web開発ならPerl
  1. Perl
  2. 文字コード
  3. Unicode
  4. コードポイント

ある文字のユニコードのコードポイントを調べる方法

ある文字のユニコードのコードポイントを知りたい場合は、次のようにします。utf8プラグマは有効にして、ソースコードをUTF-8で保存する必要があります。

use utf8;

my $str = 'あ';

# 十六進数として表示
printf "%x\n", ord($str);

ord関数で文字のコードポイントを知ることができます。printf関数で%xというフォーマット指定をして16進数で表示しています。

出力結果は以下のようになり「あ」という文字のコードポイントは3042であることがわかります。

3042

Data::Dumperで簡易的に調べる

Data::Dumperモジュールを使って簡易的に調べる方法もあります。Data::DumperはASCIIの範囲でない文字であれば、内部文字列を出力するときに、コードポイントに変換するからです。

use utf8;

my $str = 'あ';

use Data::Dumper;
print Dumper $str;

以下のようにユニコードのコードポイントが16進数で出力されます。

$VAR1 = "\x{3042}";
  • Perlとはテキスト処理の記述性とパフォーマンスに優れ、正規表現が言語に組み込まれているプログラミング言語です。
  • Linuxサーバーでのフィルタリングプログラム、複数行の文字列を処理、ファイル内容の検索・置換などが得意
  • Perlはgitopensslなど広く普及したUnix/Linuxミドルウェアの補助ツールとして採用実績あり。後方互換性とポータビリティの高さがひとつの理由と推測。
  • 大量のテキストを扱うWeb開発も得意。ロングテールSEOを意識したWebサイト、アドテクやソーシャルゲームでの50ms以内のJSONの生成など。