2018-08-10

UAX #38: Unicode Han Database (Unihan)

http://www.unicode.org/reports/tr38/#Unihan.zip
2.2 Unihan.zip

Included with the Unicode Character Database is a file called Unihan.zip.
Unihan.zip ファイルは下記 URL からダウンロードできる。
ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip

日本語の漢字と中国語の繁体字 (Traditional)、簡体字 (Simplified) の変換方法

[1] のテーブルの漢字「電」 (electricity) を例に説明する。
日本語の「電」の Unicode は U+96FB である。
Unihan.zipUnihan_Variants.txt から U+96FB を探すと、下記の行がヒットする。
U+96FB kSimplifiedVariant U+7535
Unicode の U+7535 は中国語の簡体字の「电」である。
同様にして逆変換も可能だ。

関連情報として [2] も参照されたい。

[1] https://en.wikipedia.org/wiki/Chinese_characters#Comparisons_of_traditional_Chinese.2C_simplified_Chinese.2C_and_Japanese
[2] https://www.reddit.com/r/LearnJapanese/comments/57wa0c/where_can_i_find_a_mapping_of_which_kanji/