文字コード

プログラムでよく躓く原因になるのが文字コード。

文字コード。WindowsやMacを日常的に使っている場合、まったく意識することのないものなのですが、プログラムの世界では非常に大きな要素です。文字コードによって動かなかったり、トラブルを起こす例は少なくありません。

例えば日本のWindowsの文字コードはShift_jisです。そして日本でやりとりされるメールの一般的な文字コードはJIS(ISO-2022-JP)です。で、MacOS XになるとUTF-8です。と、まぁ同じ日本語として見えていても、実は別々な文字コードが使われている事は少なくありません。Webだとそれが顕著ですよね。

せめて国別くらいに分かれていてくれたらいいのですが、同じ日本の中にも数種類の文字コードがあるから困ったもんだ。日本で一般的に使われている文字コードはShift_JIS、JIS、EUC-JP、UTF-8の4つくらいですね。今最も利用されているのは恐らくUTF-8でしょう。Shift_JISやJIS、EUC-JPはどちらかというとレガシーです。

なぜUTF-8か

なぜUTF-8がいま最も熱いかというと、全世界共通で使える文字コードだからです。UTF-8の話をする時は2バイト文字の話をしなくてはならないのですが、日本語や韓国語、中国語は2バイト文字と言って1文字を表現するのに2バイト使います。2バイトとは8ビット×2で16bitの事ですね。対して英語は1文字を表現するのに1バイト。その関係でいろいろとややこしい事がよく発生するんです。

で、UTF-8は何がスゲェかというと日本語などの2バイト圏の文字も1文字としてカウントするわけです。Shift_JISの場合「あ」という文字は1バイト文字を2つ使ってるイメージなのですが、UTF-8の場合「あ」は1文字としてカウントされるというわけです。あ、わかりづれぇ!

[ 2009-10-05 13:25:38 / 9分 / 和田憲幸が生まれて30年と126日目(11076日目)に書いたWebプログラミングに関するTipsです。 ]
新規コメント出力エリア

エラーメッセージ出力

今さら学ぶWebプログラミングインデックス

馬鹿でも書けるWebプログラミング目次

チップス
和田憲幸のブログ 和田憲幸の生放送 和田憲幸の写真 和田憲幸へお便り SYNCKGRAPHICA SYNCKTECHNICA Twitter Youtube facebook