コンピュータ上で使用する情報量の表現まとめ
単位
ビット「bit」
- コンピュータで扱う最小の単位
- 「ON」「OFF」の二値
- 1と0で表現
バイト「Byte」
- 8個のbitをひとまとめにした単位
- 2進数8桁
- 情報量の基本単位
bitを使った情報量の表現方法
- 1bit → 0と1の2通り(2の1乗)
- 2bit → 0110等の4通り(2の2乗)
- 3bit → 01110等の8通り(2の3乗)
- nbit → 2のn乗通りの値を表現可能
情報量の接頭語
大きな数値
大きな情報量の前には10の整数乗倍を表す接頭語をつけることができる。
膨大な情報量を表すのに使用できる。
接頭語 | 意味 |
---|---|
k (キロ) | 10^3 |
M(メガ) | 10^6 |
G(ギガ) | 10^9 |
T(テラ) | 10^12 |
小さな数値
コンピュータの処理速度は非常に速く、その数値を表すのに使用できる
接頭語 | 意味 |
---|---|
m(ミリ) | 10^-3 |
μ(マイクロ) | 10^-6 |
n(ナノ) | 10^-9 |
p(ピコ) | 10^-12 |
文字の表現方法
- コンピュータ上で使用できる文字には1つ1つに0と1で表現される文字コードが割り振られている
- 文字コードは複数ある
文字コード種類 | 特徴 |
---|---|
JISコード | 最も標準的に利用されている文字コード。日本工業規格(JIS)により定められた7bitの符号化方式。特殊文字もエスケープシーケンスで表現可能。 |
Shift-JISコード | Microsoft社によって定められた文字コード。エスケープシーケンスは使用できない。半角も全角も2バイトで表現するため文字数とバイト数が一致する。文字前半の8ビットで半角か全角を判断可能。 |
ASCIIコード | American Standard Code for Information Interchangeの略。アメリカ規格協会が設定した文字コード。1文字7ビット表現。誤り検出用に1ビット追加した8ビット構成。国際標準化機構により国際標準として使用されている。 |
Unicode | 文字化けの解消を目的にユニコード・コンソーシアムによって制定された文字コード。文字を4バイトで表現し、世界中の言語に対応している。ISOで規格化されており、javaやXMLは標準コードとして採用している。このコードをデータとして実際に使用する場合はエンコーディングにより符号化して使用。 |
EUC | 拡張性UNIXコードと呼ばれる。漢字、韓国語、中国語等を扱うことのできるマルチバイトコード。 |