OCRの盲点

現在、郵送で到着した分のデータを逐次テキストデータ化している。
今回、手書き原稿とプリントアウトされた原稿は、それぞれ別スタッフが担当していて、プリントアウトされた原稿はスキャナで取り込んでOCRで読み込んでデータ化する、という手はずだった。


――のだが。
OCR担当スタッフからクレーム。
「取り込めない原稿がある」
ほとんどのプリントアウトされた原稿というのは、ようするにパソコンなりワープロなりで書いたものを紙に印刷して出力されたものなのだが、こうした「ブンガク賞*1への応募」というシチュエーションのせいなのか、400字詰め原稿用紙に出力印字してくる人とか、400字詰め原稿用紙相当に、字間行間を開けてプリントしてくる人がいるのだが……はっきり言って、これはやめたほうがいいと思う。
何が困るって、いろいろ困るのである。

現在の出版業界では、一部の例外(例えば高齢の大家だとか)でない限り、文字原稿はテキストでいただくケースが増えている。雑多な駄文書きは当然ながら、雑誌原稿などもテキストデータでの納品がほとんど。以前はFD入稿というのもあったが、今は概ねメール入稿が多いと思う。
つまり、納品の段階で「テキストデータ化」されていることが、非常に重要であるわけだ。
これはこの後の作業(つまり、原稿を印刷用のデータにする作業)を簡素化するためでもある。手書きで書こうがワープロで印字出力しようが、結局は「WindowsMacで扱える、ASCIIテキスト(プレーンテキストとかシンプルテキストとか言われるもの)」に直さないと、印刷屋さんが扱えないのである。
DTP(デスクトップ・パブリッシング)の黎明期には印刷屋さんが手書きや別形式のデータをASCIIテキストにコンバート(または打ち込み)をする、という時代も過渡期的にはあった。が、今はそんなサービスはほとんどやってない。原稿はテキストデータで。出力したものを添える場合でも、必ずテキストデータ添付。これ必須。

手書き原稿は、データ化の手間がかかる上に、人によっては「読めない」ことも多々あるので、かなり嫌われる。「賞に出すなら手書きじゃないと」と思いこんでいる人もいるかもしれないが、手書きというだけで相当悪印象を与えているものと思った方がいいかもしれない。

今大問題になってるのは、ワープロから印字したもの、パソコンで書いたのにテキストデータを付けないでプリントアウトだけを送ってきたもの。
これだけなら、まあいい。OCRがある。昔に比べたら幾分マシになったし。
ところが、その「昔に比べて幾分マシになったOCR」の涙ぐましい努力を吹っ飛ばすのが、「原稿用紙と同じフォーマットで出力された印字原稿」というもの。


はっきり言うと、これはOCRでは取り込みできないんです。
OCRは、文字の固まり(ブロック)をひとつの段落として捕らえて、「一連の続いている文章の固まり」として認識する。
ところが、400字詰め原稿用紙に合わせて出力された原稿は、字間行間が離れすぎているために、「段落」で捕らえることができずに「一文字一文字が独立したもの」と認識されてしまうらしい。400字詰め原稿用紙に400個の段落が出現するわけである。

なので現在、400字詰め原稿用紙相当で印字されてきたものについては、OCR取り込みをあきらめて人力でデータ打ち込み中、とのこと。
「ビール6本じゃ安いよ!」ごもっとも。倍に増やします。


もちろん、こうして手間を掛けなければならないOCR非対応原稿の印象というのも悪くなる。
もし、今後その他の文学賞なんかに出品を考えている人がいるなら、「手書きはよしなさい」「400字詰め原稿用紙サイズのプリントアウトはよしなさい」「必ずテキストデータを付けなさい」と、強く強くアドバイスしたい。
超-1ではいずれもルール違反ではないしペナルティはない。
が、スピードと効率重視の現代出版事情から言うと、ダンディズムとアナクロニズムはホビーでしかないわけで、あまり好印象はもたれないのだということを強く忠告しておきたい。



超-1、もし来年もあるんだったら、そのときは全面的に……。

*1:超-1は文学賞ではありません(^^;)