ノーブレークスペース

普通日本人が文書を書くとき大抵文字コードはシフトJISですが、ローカライズ業務やWEB業務では大抵ユニコード(utf-8またはutf-16)ですよね。中国語だろうが韓国語だろうが大抵の文字は埋め込めるので楽ちんなわけですが、それらのユニコードテキストファイルを読み込んで操作するプログラムを書くとき、いろいろはまることがあります。
今日は「半角スペース(U+0020)」と「ノーブレークスペース(U+00A0)」が混在したテキストではまりました。実体参照で書いてあればいいんですが文字そのものが入っていると普通のエディタで開いても一見同じ半角スペースなので違いが分からないんですよね。

コメントは受け付けていません。