猥褻風俗史

まず、古書のスキャン。ドキュメントスキャナー(ScanSnap)が使えないような状態の古い本(外骨の本は和装和綴、黴びたり染みたり劣化したりでしたorz)に、連続して用紙を吸い込むスキャナを用いた破壊スキャンは困難。
非破壊スキャナは高いw(あとスキャンデータをOCRするのにはスキャン後素材としては不向き)。
ドキュメントスキャナーを使って取り込んだものは若干の「ぼやけ」があり、これが後のOCRの成果品質を下げた。LEDフラットベッドスキャナーを用いたものはそれよりは鮮明になったけど、それでも現在の一般的なフォントと異なる「明治・大正時代の活字」からのOCRは困難を極めた。まず、旧字体の問題。
実は、第三水準、第四水準として今も多くの「旧字」そのものはフォントで使えるのだが、OCRソフトがそれらを正しく認識できないケースが多かった。
また、異体字という問題もあって。
例えば「半」「尊」などの上に付いてる逆ハの字。現在はこれらの文字では、払いは「下がせまく、上が広い。外側から内側に向かって払う」という字形になっているのだが、明治・大正・昭和前期くらいまでの活字では、これが逆になっていて、逆ハの字の払いは「上が狭く、下が広い。内側から外側に向かって払う」という字形になっている。
これは旧字ではないので、今のフォントを探しても出てこない。
他に、「教」という字の偏の「孝」という字。これは「土」「ノ」「子」の合体でできている、と我々は字形から理解しているけど、明治頃の活字だと「土」ではなく「メ」「一」でしたorz
土じゃないんだよ! だけどこれ第三水準第四水準にはないんだよ!

だけど、「説」の異体字の「說」は三水四水にあるんだよ!
ただこれ、SJISだと表示されないんだよ! UTF-8じゃないと表示されないんだよ!
OCRソフト「読取革命」はSJISで出力しやがんだよ!

とまあ、そういう問題がぞろぞろと……。


結局、絶版古書電子復刻の第一弾・猥褻風俗史宮武外骨)は、「スキャンデータを手本として、目で見てタイピングする【総手入力】」になった。
しかも、この本は総ルビ。
OCRは実は総ルビと圏点には極めて弱くて、ルビと圏点を避けて細かく指定するか、スキャンデータの時点でルビと圏点を取り除く画像加工をしてからでないと、ルビ、圏点、ついでにスキャンノイズであるゴミなども全部「文字として認識」しようとしてしまい、結果、OCR認識成果はぐだぐだになるorz
結局、ルビも全て手入力になりました。
なんだこの手の掛かりすぎる本は!!!!!
誰もが「原本があるんだし、スキャンしてOCRすればそれだけでポンとできる。それで金を取る気か」と思うだろなと……。だけど違うんだよ。本番はルビ入力、さらに大本番は校正なんだよ!*1


猥褻風俗史は10月下旬頃に話が持ち上がり、11月の上旬に神沼三平太氏が手に入れた原本からスキャンデータを起こし、そこから須藤安寿氏、加藤一で入力を始めて、途中それぞれの本業で中断した時期もあり、12月に入ってからは主に須藤安寿氏が校正を行い、kindleでの頒布のために必要となる「独自コンテンツ」を加藤が書き下ろして、ようやく形になったのが12月25日。のべ二カ月。
実働時間を一日6時間労働くらいでカウントすると2〜3週間かなあという気はするけど、それにしたってああた。


という労作が、これです。


猥褻風俗史 全(注釈付き+総ルビ本)
宮武外骨

18禁扱いになってるのは、この本は、明治期にできた「猥褻を取り締まる新法」によって、それまで、つまり江戸時代以前には違法ではなかった日本の伝統的な性的風俗・信仰などが取り締まりの対象になってしまい、次第に廃れていくに至った、というようなことをまとめた本、だから。
同書の原本が非アダルトとして流通してるのだから別に18禁じゃなくてもいいんじゃん? とは思ったけど、kindleは一応「審査」があるそうなので、念には念をで18禁扱いにしました。

古文だけど全編に魂を注ぎ込んで造ったルビが入っているので読みやすいです。
内容については、当時は「猥褻物を販売すると官憲に逮捕されるかもしれないから、売らない。予約者と書店主にのみタダで配る」と、同時刊行の「筆禍史」という本の景品として、百部だけ造られた稀覯本中の稀覯本
過去に抄訳や影印本は何度か出ているんですが、いずれも研究用だったり掻い摘み過ぎだったりルビなしだったり、何より値段が高かったり……。
というわけで、今回「学術資料としては大変お求めやすい金額」、読みやすいリフロー版にして、ついでに「電子復刻作業のときに使ったスキャンデータ」を無料付録で付けてみました!*2


……正直、掛かった人手を回収できるかどうかも怪しいのが、こうした古書電子復刻がなかなか進まない最大の理由であるということが改めて理解できた。
なお、kindleでは「活字のみの画像データを束ねたスキャン本(フィックス本/レプリカ本)」は販売できないルール。kindle Paperwhiteなどのビュアーに不向きであること、スマホなどでの閲覧に不向きなことなどがその理由なんだけど、加えて「活字のみのスキャン画像」を判読可能なクオリティの解像度で保存すると、40頁弱程度でも70MB近くになる。Kindleの回線を大幅に圧迫する可能性があるため、コミック以外についてはこのような仕様にしてるんだろなあとは思う。
これだって、やってみなきゃわかんなかった話で、研究という意味ではひとつの成果である。


なお、この宮武外骨は2005年7月に著者死亡から50年が経過しており、日本の既存法では著作権消失したパブリックドメイン文書に辺り、著作権者・遺族の権利が消滅している。青空文庫でも外骨の著書の電子化が試みられているが、現状では「一圓本の害毒」のみが完成しており、「賭博史」は作業途中のまま中断している。
外骨の本は「量が多い」「馬鹿馬鹿しいw」「出刃亀根性的に面白い話題」「学術的には評価されない分野の取り扱い」「何度も発禁を受けたり投獄されたりしている内容」*3などから、読み物としても大変面白い。
是非他の人々にも電子復刻を手がけて貰いたいところだけど、「よほどの物好き」か「研究者が高い金出して買ってくれる」かでないと無理だろうなあということも痛感した。

ちなみに、竹の子書房としては、

  • 私刑類纂(和装和綴原本)
  • 奇態流行史(和装和綴原本)
  • 雑誌スコブル全巻(全27号、影印本縮刷版)
  • 變態知識 上下巻(原寸影印本)
  • 面白半分(和装和綴原本)

などを、それぞれ底本として確保している。
既に「私刑類纂」はスキャン作業+OCR作業を終えて校正と組版作業中。
「奇態流行史」はスキャン作業は終えているが、圏点とルビを取り除いてOCRを行う作業が進行中。どちらも100頁近いのでまだ暫く掛かるだろうが(これから本業が忙しくなるので)、どちらも「とにかく面白い」のでどうにかしてもう一度世に出したい、出すべきだ、と考えている。
面白半分はさらに面白いんだけど、これ外骨本としては超有名なので、いずれ河出書房が出すんじゃないかなあ、と(1980〜90年代に河出は外骨の著書をかなり出してるので、復刻するとしたらあそこだろうと)期待して、敢えてまだ手を付けず、原本をときどき取り出しては(・∀・)ニヤニヤしている。
スコブルもやりたいんだけど、「総ルビ」「50頁の本が27冊」「縮刷影印本しかないので判読が困難」という理由で足踏み中。
「變態知識」は古川柳の集成本なんだけど、猥雑だったり和算クイズになってたり、これまた知的娯楽の粋を極める。なんだかんだで当時、外骨のファンが多かった理由がわかる気がする。

というわけで、大切なことなのでもう一度。



猥褻風俗史 全(注釈付き+総ルビ本)
宮武外骨

Amazon Kindleで絶賛発売中。

Kindle専用端末でなくても、

などの携帯端末で大概閲覧可能です。
PCやスマホなどでAmazonのストアサイトから買って、自分のスマホなどで閲覧、というスタイル。PCでは(今の所は)閲覧できないんだけど、PCで読む方法もあるらしいので、これはいずれまた。

*1:須藤さん、猥褻風俗史の校正ありがとうございます

*2:付録のダウンロード方法はkindle本巻末に掲載

*3:猥褻と政府批判が主なのだが、現代では差別と見なされる話題なども多く、これが復刻の妨げにもなっている