第41回　本のデジタル化の作業

電子書籍か紙か

アマゾンのKindleの日本国内での販売開始、Googleのブックスキャンなど、書籍をめぐる電子化の動きは、近年次第に高まりを見せています。

かくいう筆者自身も、厖大なコストと手間をかけて所蔵する本のデジタル化を進めており、書棚がすかすかになるほどのペースでプロジェクトを進めています。

本をデジタル化する物理的な作業は、断裁機で断裁して、ドキュメントスキャナで読むことです。

この作業は、ほんとうに物理的な作業なので、効率化するといってもあまりよい方法はありません。ただし、デジタル化の作業では、これ以外にも、細かい作業がいくつもあり、それをどうするかによって効率はけっこう変わってくるんじゃないか、と考えています。

ひとことでいえば、「⁠本を買って読んでデジタル化してあとはタグをつけたり検索して役立てる⁠」⁠。

大まかな手順はこうです。

読むときには紙で読み、デジタルでは読まないのが筆者のスタイルです。デジタルのディスプレイは表現力で紙に劣ります。いっぽう紙は蓄積のしやすさ、検索性などで劣ります。検索性に関しては、記憶をたどってぱらぱらめくることも検索と位置づければ、単純にデジタルが優っているともいいがたいですけれども。

デジタル化にあたって行わなくてはならないのが、フォルダを作る作業です。筆者の場合、スキャンはJPEGファイルで、ページ単位で保存しています。引用などでページ単位で使うことも多いし、さまざまなブラウザで表示するためには、ページ単位で扱えるほうが都合がよいと考えているためです。

フォルダの名称は、基本的に書名と一致しています。書名は日本語の漢字かなまじり文であることが大半ですから、フォルダを作るときにも、シェル上でかな漢字変換をする必要があります。これは結構めんどうな作業です。

いっぽう、筆者はかなり詳細な日記を30年にもわたってつけています。文字を書くのがめんどうなのではないのです。シェルの貧弱な環境で文字を書くのがたいへんなのです。

日記はライフログの中核的なツールでもありますが、単純に書誌リストとしても使うことができる情報をもっています。なんか回りくどいですね。つまり日記には本に関する情報が、ことこまかに書いてあるわけです。タイトル、作者、出版社、抜き書き、感想、etc.

ここにすでに書誌情報があるのに、わざわざフォルダの名前にもういちどタイトルを入力するなんて、ちとばかげていると思うのです。しかも本のタイトルは個性的でかな漢字変換で出てこないことも少なくありません。

さらにいうと、アマゾンで買う場合、買う本のタイトルは検索するときに入力するため、そのときに入力した文字列を使わないのはもったいない話です。Googleに日本語入力を作られている場合じゃないです。

ログである一度入力した文字列は徹底的に使います。すなわち、以下の用途に利用します。

このくらい使い回してこそ、やっと元をとれた気がしてくるわけです。

ここまでインターネットで購入する場合ですが、本の購入は、リアルな書店でも行います。

リアル書店の場合には、本を買った挙げ句に、それを家まで運び、さらにデータベース化する必要さえあります。これはなしくずしに送料無料化を行いつつあるアマゾンに比べて、リアル書店の危機かもしれません。

リアル書店で買ったら、買った本の書誌データをメールで送るくらいのサービスをしてほしいものです。リアル書店だと、つい平積みから積み上げて、まとめ買いしてしまう傾向があるため、よけいにそんな気がします。10冊もまとめて書誌データを入力していると、ちょっと気がめいってしまいます。

そこで、いろいろ考えた結果、ISBNとバーコードリーダーを使って、書誌データを自動で取得し、日記を書き、ついでにスキャン用のフォルダを作成し、すでにスキャンずみならそのフォルダを開くソフトを試作しました。

図4　試作したアプリケーション

検索やコマンド実行機能をもつ、1行エディタ。ここにISBNを入れてEnterを押す。

スキャンをしたファイルを一括してフォルダにいれたり、フォルダを年月日のフォルダに格納することも一括処理します。これは次回ビューアーと同時にご紹介します。

このような細かい手順を半自動化したことで、スキャン作業の手間を大幅に軽減することができるようになりました。