ALBA LUNA


txtの文字数カウントしてみた

2019.04.22 2019.04.22

いつもと違って完全にメモです!
あとで清書するね!

先日文字数カウントの話をお見掛けしたので、私の手元のデータを使ってカウントしてみました。

使ったデータ

A)機種依存文字なしのtxt(UTF-8)
B)機種依存文字ありのtxt(濁点つき仮名)

結果

結果リストはあとでもうちょっと見やすく整形して上げ直します
一太郎はUTF-8のtxtを直接開くことが出来ないので、秀丸でS-JISに変換して読み込みました
機種依存文字の部分は1文字あたり「?」1文字になるので、文字数は変わりません

Atomの文字カウントについては、カウント用のパッケージが「wordcount」「counter」のふたつがあり、後者だとWordなどと同じような数字が出ます(Include spaceをon/offしてもWordと結果がほぼ一致)
ではwordcountの数字は何なのか? というのを秀丸の文字数カウント方法の変更で確かめてみたら、改行を2文字でカウントしているみたいです。
なるほどな。

余談ぽいもの

機種依存文字入りのデータ

源暎こぶり明朝・しっぽり明朝v2など、濁点付き仮名、もしくは各デバイスで入力できる「♥」などの機種依存文字。
最近はiOSでも縦式などの入力サポートがあるアプリで簡単に入力出来るようになりました。

これらを使った小説ってあると思うんですが、フォントが対応してないと表示が出来ないんですね。
では表示できなかったら文字は存在しないか?
というと、別にそうでもないですね
ってことで、文字数カウントには影響ありませんでした。

もらったデータを自分で整形する

とりあえずPDFにすること、基本的に対応フォントを入れないことを前提。

使われている文字が源暎こぶり明朝などに含まれる方の「濁点付き明朝」だったら、「源暎こぶり明朝」に対応したWebツール(Web版威沙など)でPDFに変換する。
「使われているのが濁点明朝A」などだったらWeb上に対応アプリがないので、PDFを送ってもらうしかない。
前述の「♥」については、変換で出てくる方のハートだったら源ノ明朝で表示できるだろうから、源ノ明朝対応ツールで変換。
別の領域に割り当てられてるハートだったら、やっぱりPDFを送ってもらうしかないだろうなぁ