前回、「きょうの料理」のテキストをスキャンした画像ファイルを使って、指定したキーワードから該当するページを表示する機能だけを持ったレシピデータベースを試作してみました。
紹介した100行ほどのコードには最低限の機能を実装しただけなので、しばらく使っているとあちこちに必要な機能や改良すべき箇所が見えてきました。今回はそれらを紹介しつつ、システムをどのように修正していったかを紹介します。
データベースの改良
よみがなの追加
スキャンした画像データを見ながらキーワード・ファイルを作っているうち、「きょうの料理」の食材名や料理名の表記が、普段使いなれている表記と少し違っていることが気になり始めました。
例えば料理名を「卵焼き」とするか「玉子焼き」とするか(「きょうの料理」では「卵焼き」)、魚の名前を「鯛」とするか「たい」とするか(同じく「たい」)、野菜の名前を「玉ねぎ」とするか「たまねぎ」とするか(「たまねぎ」)、調味料を「醤油」とするか「しょうゆ」とするか(「しょうゆ」)、といった表記です。
これらの表記は「きょうの料理」内では統一されているものの、普段自分が使いなれている表記と異なっていると、検索キーワードを指定する際に「これはどう表記するんだっけ?」と考えることになって面倒そうです。そこで、VHDカラオケの曲名や歌手名をデータベース化した時と同様、キーワードにひらがなの読みを振ってみることにしました。
カラオケの楽曲名とは異なり、料理や食材の名前にそう凝った読み方はないだろう、と、たかを括って、以前書いたkakasiの共有ライブラリ(libkakasi.so)をPythonから呼び出すコードを流用してみたものの、「パン粉」が「ぱんこな」になったり、「一味とうがらし」が「ひとあじとうがらし」になったり、「紅しょうが」が「くれないしょうが」になったりと、結果は芳しくありません。
この問題はkakasiが使っている辞書(kanwadict)内で優先される読みがこちらの想定と異なっているためで、読みの順番を修正すれば対応できるものの、バイナリ形式のkanwadictを修正するには、元となるkakasidictを編集してからmkkanwaコマンドで再生成する必要があり、気になる読みを修正するたびにこの作業を行うのも面倒です。
そこでPythonスクリプトの中にあらかじめキーワードと読みを対応させた辞書形式のデータを用意しておき、該当するキーワードはそこから読みを引くようにしてみました。講師名等の固有名詞もここに登録しておくのが便利そうです。
こうしておけば、気になる読みはスクリプトレベルで調整できるので、いちいちkanwadictに手を入れる必要が無くなりました。
データベースの拡張
前回紹介したように、このシステムで利用しているデータベースは1レコードにページ番号とキーワードをそれぞれテキスト型のカラムで並べただけのシンプルな構成です。しかしながら、前節で紹介したようにキーワードに読みを振ろうとすると、キーワードのカラムとは別に読みがなのカラムが欲しくなります。
また、データが増えてくるにつれキーワードのミスマッチも目立つようになりました。例えば魚の「たい」を使うレシピを調べたつもりなのに、「伝えたい味」や「もっと知りたいレシピ」といったタイトルのページも引っかかります。このような状況を改善するために、データベースの構造を見直すことにしました。
今回のデータベースでは「きょうの料理」の各ページからキーワードとして「特集名」「料理名」「講師名」「食材リスト」を拾っています。そこで、これら4つのキーワードをそれぞれ独立のカラムにし、合わせてそれぞれの読みも対応するカラムに登録するように変更しました。また、データベースを作成する度にsqlite3コマンドを使うのも面倒なので、データ登録用スクリプトからデータベースを作成するような機能を組み込みました。
一方、このスクリプトの入力になるキーワード・ファイル側も、どのキーワードがどのカラムに対応するのかを明示する必要があります。awk/gawkに慣れた世代としては、この手の作業には何か適当な文字を区切り記号にした固定順レコードを使いたいところですが、すでに各項目の並び順がまちまちなキーワード・ファイルを複数作成してしまっていたこともあり、最低限の修正で済むように異なる種類の括弧を使ってカラムと対応付けすることにしました。具体的には「特集名」を[]、「料理名」を、「講師名」を()、「食材リスト」を{}で括って、それぞれの項目を示すことにしました。この仕様を使うと前回紹介したキーワード・ファイルは以下のようになります。
作成済みのキーワード・ファイルは手作業で修正しなければならないものの、このスタイルならばエディタの文字列置換機能を使って一括変換すれば多少は楽できるでしょう。
キーワード・ファイルの仕様変更に合わせてデータベース登録用スクリプトも修正が必要となり、Pythonのre(正規表現)モジュールを使って括弧の部分を抽出することにしました。PythonのreモジュールはsedやPerlとは異なり、正規表現のパターンを記述したオブジェクトを作って、そのメソッドで文字列を処理する形になります。
取り出したtitleやauthorは、to_hiragana()でひらがなに変換してtitle_yomiやauthor_yomiに収めます。
必要な項目が揃えば、それらをタプルにまとめてデータベースに登録します。前回に比べると、ずいぶん登録すべきデータが増えてしまいました。
さて、以上はページ番号とキーワード情報を関連づけたpagesテーブルに関する修正でした。一方、このようにデータベースや登録用スクリプト、キーワード・ファイルの修正を繰り返していると、どの号のデータが登録済みでどの号が未登録かが分かりづらくなってきました。そのため、登録の有無を記録するvolsというテーブルを新しく用意することにしました。このテーブルには登録済みの巻数(何年何月号という情報)を記録しておき、データの二重登録を予防します。煩雑になるのでコードの紹介は省き、sqlite3コマンドでデータベースの概略を紹介しておきます。
「きょうの料理」のテキストはあちこちに散らばっていて、目についたものから適当にスキャン、登録しているので、必ずしも年月の順には並んでないものの、およそ25冊分が登録できているようです。
Web画面の改良
検索画面の変更
前述のように、データベースの側でキーワードを4つのカラムに分けたので、各カラムを検索できるように検索画面でも各項目を独立させました。
もっともSQL的には検索対象とするカラムを替えるだけなので、inputタグのhidden要素で対象とするカラムを区別しているだけです。
このフォームを受けとるsearch.phpでは、$keyや$colの値を用いてSQL文を作成し、データベースを検索します。
合わせて「年/月検索」として、データベースに新しく追加したvolsテーブルを引いて登録済みの号を調べ、一冊全体の情報を返すような機能も追加してみました。
画面表示の改善
前回紹介した画面表示用のコード(show.php)では、search.phpから送られたページ情報を実際のファイル名に変換し、その画像ファイルを表示する機能しかありません。しかし、「きょうの料理」の場合、ひとつのレシピが複数ページにまたがっていることも多く、表示しているページの前後のページへ直接移動できないと不便です。そこで画面表示用のコードにページを移動する機能を付けてみることにしました。
前回のshow.phpでは"2009-01-page_0100.jpg"というページ情報を、"Pages/2009/01/page_0100.jpg"という画像ファイルへのパス名に変換しました。一方、前後のページを示すためには、page_0100.jpg を元に、page_0099.jpgとpage_0101.jpgを作ることになります。
ページ番号を4ケタに合わせるのが厄介そうですが、幸いPHPのformat文にはパディング指定子(')が用意されているので、前後のページはこんな感じで生成できそうです。
$next_page, $prev_pageとして生成した文字列はshow.phpが受けとる形式に合わせたので、これらを引数にshow.phpを呼びだせば指定したページへ移動することができます。そのためのリンクを画像ファイルの左右に配置しましょう。
画像ファイルの上下は空いているので、検索結果のページに戻ったり、キーワード入力ページへ戻るようなリンクがあっても便利でしょう。キーワード入力ページへ戻るのはindex.phpへのリンクだけでいいものの、検索結果のページに戻るには再度search.phpを呼び出す必要があるので、あらかじめ検索キーワード($key)と対象項目($col)をsearch.phpから引きついでおくことにします。これらをtableタグを使って表示するページの回りに配置します。
実際のページ表示画面は次のようになります。
前後のページへのリンクを付けることで、検索結果のページだけでなく、その前後のページも自由に読み進めることができるようになり、「レシピ集」と「電子書籍」を融合したような使い方が可能になりました。
実のところ、「きょうの料理」で紹介されたレシピの多くは、(株)NHKエデュケーショナルが運営している「みんなのきょうの料理」サイトで公開されているので、わざわざテキストからレシピデータベースを作る必要は無いのかも知れません。
しかしながら「きょうの料理」のテキストには、レシピ以外の読み物的な記事も多く、それらを1年分まとめて眺めてみると、1冊だけ見ている時は気づけなかった連載記事の意図や著者のこだわりが見えてきて結構面白かったりします。
何よりも「ああでもない」「こうでもない」と苦労しながらシステムを作り、それで日々の生活が便利になるのはうれしい体験です。与えられたアプリやサイトを受動的に使うだけでなく、手を動かして工夫しながら自分で作る、というのは、「きょうの料理」の勧める自炊の精神と同じだろう、と、個人的には納得しています(苦笑)。