Google⁠AIを使って非構造化テキストから構造化データを抽出するオープンソースPythonライブラリ「LangExtract」リリース

Googleは2025年7月30日、非構造化テキストから構造化データを抽出するオープンソースのPythonライブラリ「LangExtract」をリリースした。

LangExtractは、LLMを用いてユーザー定義の指示にもとづいて非構造化テキスト文書から構造化情報を抽出するPythonライブラリ。大量の非構造化テキストを短時間で構造化情報に変換し、抽出データがソーステキストと一致することを保証しながら詳細な重要データを識別・整理できる。

LangExtractを使用すると、以下のような手順で非構造化テキストから構造化情報を抽出できる。

①抽出タスクを定義
抽出したい内容を明確に説明するプロンプトを作成し、モデルをガイドするための精度の高い例を指示。
②抽出を実行
元の非構造化文書と定義したプロンプトをlx.extract関数に渡す。ここで抽出に使用するLLMを選ぶことができる。
③抽出結果を視覚化
抽出結果はJSONL形式で(.jsonlファイルに)保存される。このファイルからインタラクティブなHTMLが生成され、ビジュアルに文脈内でエンティティを確認することができる。
シェイクスピア作「ロミオとジュリエット」をLangExtractにかけ、抽出結果のHTMLをインタラクティブに確認する例
「ロミオとジュリエット」をLangExtractにかけ、抽出結果のHTMLをインタラクティブに確認する例

LangExtractにはさまざまなLLMへの軽量なインターフェースが用意されている。使用モデルとして推奨されているのはGemini 2.5 Flashだが、深い推論を必要とする非常に複雑なタスクの場合はGemini 2.5 Proのほうが優れている場合があるとのこと。また大規模環境または本番環境での使用では、スループットを向上させレート制限を回避するために、Tier 2 Geminiクォータの使用が推奨されている。

LangExtractはApache 2.0ライセンスのもとGitHubPyPIで公開されている。

おすすめ記事

記事・ニュース一覧