文字コードとは?
文字と数値を対応づける規則。ASCII・Shift_JIS・UTF-8など規格によって同じ文字が異なる数値で表現されるため文字化けが発生する
詳細解説
文字コードは、コンピュータ上で文字を表現するために各文字に数値(コードポイント)を割り当てた規則(文字コード体系)です。コンピュータは数値しか扱えないため、文字と数値の対応表が必要になります。主要な文字コードの種類は次の通りです。ASCII(American Standard Code for Information Interchange):1963年に標準化された最初の文字コード。英字・数字・記号を7ビット(128文字)で表現。日本語を含まないため日本語環境では拡張が必要。JIS X 0208:日本の標準文字コードで漢字を含む6,879文字を規定。Shift_JIS:MicrosoftとASCIIが策定した日本語文字コード。Windowsで広く使われてきたが環境依存文字の問題がある。EUC-JP:Unix環境で広く使われた日本語文字コード。UTF-8:Unicodeをバイト列にエンコードする可変長符号化方式。ASCII互換(英字は1バイト)で日本語は3バイト表現。現在のWebの標準。UTF-16:Unicodeを主に2バイトで表現。WindowsのNT系内部で使用。文字化けは異なる文字コードで書かれたファイルを誤った文字コードで読み込んだときに発生します。例:UTF-8で書いたファイルをShift_JISとして読み込むと日本語部分が化ける。BOM(Byte Order Mark)はUTF-8・UTF-16ファイルの先頭に付けて文字コードを識別させるためのバイト列です。現在のWebはUTF-8が事実上の標準で、HTMLの meta charset 指定で明示します。ITパスポートでは「文字コードの種類と特徴」「文字化けの原因」「UTF-8とASCIIの関係」が頻出です。
ITパスポートでの出題ポイント
- 1文字に数値を割り当てた規則。異なる規格間の読み誤りで文字化けが発生
- 2ASCII:7ビット128文字(英数字・記号)の基本文字コード
- 3UTF-8:Unicode準拠・ASCII互換の可変長符号・現在のWeb標準
- 4Shift_JIS:Windows向け日本語文字コード。UTF-8に移行が進む