Unicodeと日本語関連の文字種規格

【イメージ図】
なお、図中の幅にあまり意味は無いです
(あくまでも覚えやすさを重視した概念図です)

f:id:yoneyore:20210103174137p:plain
図中の線の間隔幅に漢字登録数などの意味は無いです(覚えさすさ重視)

【補足説明】
Unicodeは、JIS第一~四水準漢字や、IBM拡張文字等に加え、外字も含め全てサポートする。
・JIS第三~四水準漢字はUnicodeで表現できるが、それがサロゲートペア文字である場合もある。
・JISの漢字規格もいくつか種類があるので、仕方ないとはいえややこしさの原因の一因である。
・JIS第一~四水準漢字に含まれない漢字(例:𠮷[つちよし、牛丼屋の吉])も存在する。
 当然JIS規格外漢字がサロゲートペアである場合もあれば、そうでない場合もある。
IBM拡張文字なども第三水準や第四水準と被る部分も存在する。
 しかし、被らない(JIS規格外)漢字(例:髙[はしごだか])も存在する。
 しかし、サロゲートペア文字である事はない。
・外字は私用領域で登録する必要があり、どの規格とも被らない。
 (被るのであれば、わざわざ外字登録する必要がないため)

【リアルタイム文字コード解析ツール】
本当にこんなサイトが昔から欲しかった
www.natade.net

【一覧表】
一覧で目を通したい場合に必要
JIS第1水準漢字一覧表【全2965字】(JIS X 0213:2004) - fragment.database.
JIS第2水準漢字一覧表【全3390字】(JIS X 0213:2004) - fragment.database.
JIS第3水準漢字一覧表【全1259字】(JIS X 0213:2004) - fragment.database.
JIS第4水準漢字一覧表【全2436字】(JIS X 0213:2004) - fragment.database.
IBM拡張文字 ‐ 通信用語の基礎知識
NEC特殊文字 ‐ 通信用語の基礎知識
NEC選定IBM拡張文字 ‐ 通信用語の基礎知識

【参考リンク】
このブログ書いている際に見つけたサイト
(先にこのブログを見つけていれば、わざわざ上記纏め書く必要無かった…)
blog.natade.net

ユニコード戦記 ─文字符号の国際標準化バトル

ユニコード戦記 ─文字符号の国際標準化バトル

  • 作者:小林龍生
  • 発売日: 2011/06/10
  • メディア: 単行本