173. Unicodeテキスト
- 2017年08月03日
- その他
「Unicodeテキスト」という用語を見かけました。“テキストはシフトJIS”が一般的であった世代には、新鮮な響きです。いまどきのWebやDTPの現場の詳しい方々にとっては、「何をいまさら」な話でしょう。
「Unicodeテキスト」は、Excel 2013から書き出すファイル形式の1つとしてあります(この「Unicodeテキスト」は、「UTF-16」のことのようです)。身近なところにあったこの用語を見て、やっとUnicodeのエンコード方式(符号化方式)が、何種類か存在することくらいは、それなりに知っておかなければならないのかなー、という気持ちになりました。
まだまだ使われているExcel 2013の“名前を付けて書き出し”で、選択できるデータ形式
以前、Excelからテキスト(タブ区切り)(*.txt)やCSV(カンマ区切り)(*.csv)で書き出すと一部の漢字が「?」に文字化けする事例を紹介しました(→コラム「145. ?に文字化けする漢字」参照)。これらのシフトJISには含まれない漢字(Unicodeの漢字)も、「Unicodeテキスト」で書き出すと文字化けしません(Excel形式のままデータをやり取りするのであれば、この事を意識する必要はありません)。
Unicodeテキスト | テキスト |
囊(囊胞) | ?(?胞) |
頰(頰骨) | ?(?骨) |
搔(搔爬) | ?(?爬) |
剝(剝離) | ?(?離) |
いまや、古参のWindows 7(「2020 年 1 月 14 日 には Windows 7 の延長サポートが終了します。セキュリティ更新プログラムや有償サポートを含むすべてのサポートが受けられなくなります。」とMicrosoftからアナウンスされている)での話です。
* * *
Unicodeのエンコード方式は、その他にも何種類もあるようです。とりあえず、よく見かけるのが「UTF - 8」です。
◆ | UTF-8(雑学的まとめ) |
・ | Unicodeの最初の128文字が、古くから使われているASCIIコード*と同じで、旧来の処理システムとも親和性が高く、共存が容易になります(ASCIIコードで定義されている制御文字も含めてUTF-8でも同じコードとなっているため、プログラムを大きく変更する必要がないとのこと)。 |
・ | XMLやWebのHTMLでも使われることがあるエンコード方式です。 |
・ | DTPでは、Word等の入稿データをInDesignに読み込む前に、テキストエディタJedit Xで編集作業を行うことがあります。その際、必要に応じてエンコード方式を“UTF-8”にします。 |
ASCII(アスキー)コード:アルファベット(a-z, A-Z)、数字(0-9)、記号(!”#$%&’()等)、空白文字、制御文字を7ビットで128字分を収録した、最も基本的な文字コード。
* * *
こんなトピックでも“UTF-8”が出ていました。2016年12月、SCREEN“出力の手引きWeb”:「Adobe Creative Cloud 2017 (2) - 特色名の表記がUTF-8に変更」(その後、2017年4月に「Adobe Creative Cloud 2017 (4) - Adobe CC 2017.1で特色名がShift_JISに戻る」となりました)。

※このコラムおよび、コラム中の文章、画像、動画の無断転載および複製等の行為はご遠慮ください。