Googleは2025年7月30日、非構造化テキストから構造化データを抽出するオープンソースのPythonライブラリ
✨Announcing LangExtract! ✨
— Google for Developers (@googledevs) July 30, 2025
Our new open-source Python library for information extraction, powered by #Gemini.
✅ Turn text into structured data
✅ Trace every insight to its source
✅ Visualize results instantly
Explore the blog by @AkshayGoelMD and Atilla:… pic.twitter. com/ YzrBDsvQzQ
LangExtractは、LLMを用いてユーザー定義の指示にもとづいて非構造化テキスト文書から構造化情報を抽出するPythonライブラリ。大量の非構造化テキストを短時間で構造化情報に変換し、抽出データがソーステキストと一致することを保証しながら詳細な重要データを識別・
LangExtractを使用すると、以下のような手順で非構造化テキストから構造化情報を抽出できる。
- ①抽出タスクを定義
- 抽出したい内容を明確に説明するプロンプトを作成し、モデルをガイドするための精度の高い例を指示。
- ②抽出を実行
- 元の非構造化文書と定義したプロンプトを
lx.
関数に渡す。ここで抽出に使用するLLMを選ぶことができる。extract - ③抽出結果を視覚化
- 抽出結果はJSONL形式で
(.jsonlファイルに) 保存される。このファイルからインタラクティブなHTMLが生成され、ビジュアルに文脈内でエンティティを確認することができる。

LangExtractにはさまざまなLLMへの軽量なインターフェースが用意されている。使用モデルとして推奨されているのはGemini 2.