第51回　ハイブリッド・シソーラス・システム

使いやすいデジタル版のシソーラスがほしい

使いやすいシソーラスがあったら便利だと思っています。

シソーラスとは、類義語辞典のことです。「⁠声高」「⁠朗朗」「⁠玲瓏」「⁠絹を裂く」などが、同じようなジャンルとして並べられていて、文章を書く場合に、いろいろな言葉を探して、表現を豊かにするときに使います。

辞書モノの電子化は、電子書籍のなかでもひときわ相性がよく、すでにいろいろなシソーラスがあるのではないかと思うのですが、なにぶん使い慣れた紙の辞書に愛着があり、どうしたらうまくデジタル化できるか、と夢想し始めました。

ちなみに、インターネット上のシソーラス・サービスには、ざっと見たところで、次の3つがあるようです。

ひょっとして、これらのサービスを使うほうが現代的なのかもしれませんが、それはまた別の話として、とりあえず紙の辞書のほうから考えます。

じっさいにすこしだけ試してみたところでは、Weblioはやや数が少ない印象があり、類語.jpは会員登録が必要なのでめんどうそうで、一見様お断りな感じでした。

辞書大好き

シソーラスの書籍はふたつもっています。大修館書店の『日本語大シソーラス』と、角川書店の『類語国語辞典』です。

『類語国語辞典』はハンディな小型の辞書で、カバーに言葉の色マップがデザインされていて、初版発売時に購入したこともあり、とても思い入れがあります。

もうひとつの『日本語大シソーラス』は、いわゆる大辞典で、持ち上げるのも難儀、たぶん頭にぶつけたら確実に死人が出るボリュームです。

『類語国語辞典』には意味も掲載されていて、『⁠日本語大シソーラス』は用例だけです。どちらを使うかというと、手軽さでは『類語国語辞典⁠』⁠、用例の豊富さだと『日本語大シソーラス』という感じでしょうか。

あ、こんなネタを書いているところからもう明らかですが、ご想像いただいているとおりで、ご多分に漏れずわたしも辞書フェチです。とくに三省堂の新明解国語辞典は、話題になる前から注目していたひとりです。

索引構造をもつシソーラス

このどちらをデジタル化するか、ということを考えるときに、シソーラス特有の「使い勝手」を考える必要があります。

一般的にいって、国語辞典や和英辞典、英和辞典の単純さ（言葉を引けば意味がわかる）に比べて、漢和辞典とシソーラスは、用語にたどりつくまでに、ワンクッションが必要です。

漢和辞典なら、漢字を調べるときに、たとえば画数や読みでその漢字をさくいんで調べて、さらにその文字に到達します。

シソーラスも同様で、まずその言葉をさくいんで調べて、それからその用語へと移動します。

デジタルであれば、このさくいん-本文という構造は不要で、いきなり用語のシソーラスにたどりつくことができるわけですから、もしも用語が充実していれば、それはそれでありだと思います。

逆にいえば、電子化する場合、この二重構造をいかに解消するか、解消できるかが、使い勝手に直結してくると考えられます。

さくいんページ数を数えた…

デジタル化するときにスキャンするのは簡単ですが、問題はこのさくいんをどうするかにあります。わたしはOCRはほとんど使いませんが、辞書ものでOCRは論外です。多段組みだし、読めるとしても誤字が多く校正だけで不毛でめいってしまうと思われます。

さくいんさえデジタルになっていれば、それぞれのページは画像のままでも、使う分には問題がないと考えられます。

おなじロジックで、すでにC#の参考書を数冊デジタル化しています（第43回「デジタル書籍とペーパー索引」をご覧ください⁠）⁠。それがまあ機能しているので、応用してみようと考えました。

前回同様、問題は、さくいんの項目数です。

『類語国語辞典』は、ざっと250ページ。1ページに30項目×6段で約180項目をリストしています。全体では約45,000項目になります。

『日本語大シソーラス』は、さくいんだけで500ページ。デジタル化すると恩恵があるのはこちらだとしても、このボリュームだけでなえます。

ふたつの課題

さくいんをデジタル化、しかも検索可能なテキスト化するとなると、ふたつ問題があることがわかりました。

ひとつめは、索引は項目番号になっていて、ページを示していないことです。したがって項目を呼び出すためには、項目番号をページ順に置き換える必要があります。二重構造ではなくて、さくいん-項目-ページという三重構造だったのです。う～む。

ふたつめは、索引を検索可能な文字化する方法じたいです。OCRでないとすると、どうするのがよいでしょう?

45,000項目を入力するのは論外です。索引の五十音にするとかでしょうか。

しばし考えた末に、索引の索引、すなわち250ページのさくいんの最初の項目（見出し部分）の「わつち」とかをテキスト化することを考えました。これなら250項目のテキストを作ればよいわけです。それは比較的かんたんな作業です。それで、検索したい語の前3文字をテキストで入力して検索するのはどうでしょう。べつに前3文字でなくてもよくて、前3文字を抜き出せばよいと考えました。

シソーラス けんさくご

みたいな感じで入力するのです。

これで、まずさくいんのページを表示して、あとはそこからジャンプするようにします。

類語の項目は、000～999の3桁を使っているので、当面上ふたつの00～99の100個のフォルダを作って、画像を分けて格納することにします。項目番号をページに割り当てきれないうちは、ページめくりは避けられませんが、いまのところこの点についてはノーアイデアです。運用してみてよほどだめなら、なにか考える必要が出てくるでしょう。検索語を入れてさくいんをダイレクトに呼び出せるので、さくいんを「引く」必要がなくなり、二重構造を1.8重構造程度には、できる可能性があります。

シソーラスシステムを試作

システムを試作しました。

シソーラス けんさくご

とひらがなで入れるのは、いかにも不便です。

そこで、奈良先端科学技術大学が公開している『茶筌』を使って、漢字をかなに置き換え、検索した漢字は、辞書に順次追加していくようにしました。

これで、以下のかたちで検索できるようになりました。

シソーラス 検索語

1.8重構造を、1.6重構造程度には単純化できたと思います。もっとも、先のとおりで、項目からページに移動するところで差し引きすると、あまり省力化できないかもしれません。

『茶筌』への入力は、過去の履歴を使用できるので、過去に蓄積した全データを順次入力すれば、索引用の辞書は自動的に構築も可能でしょう。

日常的にGoogle検索をしたときにも、その検索語をシソーラスに流用していくようにすることも容易です。それなら、単に検索語を入力すればよいだけになります。

自動表示

もうひとつは、自動ページ表示機能です。普通辞書はそういう趣味のひとをのぞけば、全ページをめくったりはしないものですが、毎日1ページをてきとうな時刻に表示するようにシステムを作れば、そのページを眺めることができるようになります。そこからインスピレーションを得ることもできるでしょう。

ちなみに、わたしは毎日てきとうな時刻ごとに、デジタル書籍の背表紙を表示したり、今日の言葉を表示したり、夕日を表示したり、新聞を表示して楽しんでいます。そこにシソーラスも加わるわけです。

『類語国語辞典』のページ数は、約1,300ページあり、ざっと4年ほどで一巡することになります。運用しながら適宜インデックスをつけることもできる可能性もあります。

これでしばらく運用して、デジタル化したさくいん辞書に、本文へのリンクを順次追加していけば、いずれ本文を自動的にオープンができるようになると思われます。

運用はこれからですが、すくなくともいろいろ工夫によって改善はできそうです。なかなか楽しくなってきました。