OSSデータベース取り取り時報

第107回MySQL HeatWaveの生成AI対応⁠PostgreSQLエンタープライズ⁠コンソーシアム活動成果の報告

この連載はOSSコンソーシアム データベース部会のメンバーがオープンソースデータベースの毎月の出来事をお伝えしています。

オープンソースカンファレンス2024 Kyotoで企画セミナーを開催

OSSコンソーシアムでは、7月27日(土)に京都で開催されるオープンソースカンファレンス2024 Kyotoに参加して、企画セミナーを行います。OSSデータベースに特化した内容ではなく、他の分野も含めたOSS全般の盛り上げに資する内容にしようと準備中です。

テーマ ビジネス変革にOSSが武器になる!と思えるためにはどうする?
日時 2024年7月27日(土)15:00~16:45
会場 京都リサーチパーク(オープンソースカンファレンス2024 Kyoto内)
概要 デジタル技術によるビジネス変革を実現してもらうためさまざまなOSSが武器・道具になりうるはずです。そこで、どんな情報やメッセージを伝えていったら、これからのIT活用・デジタル変革を考える人たちにそのことを気付いてもらえるでしょうか。たとえば、
  • 世の中にあるさまざまなOSSがあることを可視化するのがいい?
  • 事例大好きニッポン人向けには事例情報を見せる?
  • 親方日の丸な公的機関からの啓発情報で背中を押す?
などなど。
Part 1では、上記を考えるための材料として、OSSコンソーシアムでの取り組みと、独立行政法人情報処理推進機構(IPA)がやろうとしているOSS推進施策についての情報提供をします(調整中⁠⁠。
Part 2ではもう少し視点を広げて、さまざまなバックボーンの識者たちと一緒に考える場にします。
登壇者(予定) 今村かずき独立行政法人情報処理推進機構(IPA)
野原直一株式会社ウェブチップス
竹岡尚三株式会社アックス
内田太志株式会社インプリム
溝口則行TIS株式会社

会場(オンサイト)開催ですので、関西地区の方はよろしければ京都リサーチパーク(KRP)にお越しください。KRPフェスとして、オープンソースカンファレンス以外にもいろいろな催しがあります。

[MySQL]2024年6月の主な出来事

6月はMySQLのバージョンアップはありませんでした。6月27日に、MySQL HeatWaveの生成AI機能であるHeatWave GenAIが発表されました。この機能の方向性は、2023年10月のOracle CloudWorldで実装が発表されていたものです。

HeatWaveの生成AIとLLMサポート

HeatWaveは分散型のインメモリ・データストアであり、スケールアウト型のアーキテクチャを活かした高速な処理が可能です。HeatWave Lakehouseを使うことで、オブジェクト・ストレージ上のデータをメモリにロードした上で分析処理をSQLで実行できます。また機械学習エンジンを内包したHeatWave AutoMLによるデータベース内のデータに対する機械学習処理が可能になっています。

今回ここに加わったのが、HeatWave GenAIと呼ばれる生成AIとLLM(大規模言語モデル)サポートです。AutoMLの仕組みとインメモリでの性能性能を活用して、オブジェクト・ストレージに置かれた文書ファイルからベクトル埋め込みを高速に生成し、MySQLに新たに実装されたVECTOR型に格納することで、HeatWaveがベクトルストアとなります。ベクトルストアに格納されたベクトル埋め込みのSQLで、セマンティック検索を行うための距離関数も新たに追加されました。

HeatWaveのスケールアウト型アーキテクチャによって、利用するノードの台数に応じてベクトル埋め込みの生成性能が向上します。

HeatWave GenAIの性能拡張性(HeatWave GenAI発表動画より)
HeatWave GenAIの性能拡張性

LLMをサポートすることで、自然言語でMySQLに対して問い合わせを行い、自然言語で応答を得ることができるようになりました。HeatWaveがサポートするLLMは

  • HeatWaveにLLMを同梱するインデータベースLLM
  • クラウドLLMサービスに連携する構成

の2パターンです。インデータベースLLMでは「オープンソース」のLLMであるMeta Llama 2とMistral AIが利用可能です。またクラウドベースのLLMとしてはOCI Generative AIサービスと連動するようになっています。インデータベースLLMは外部のサービスを利用しないことによる構成のシンプルさや追加コストがかからない点がメリットです。

Lakehouseとの機能を活用することで、社内の最新の文書を取り込んでLLMの出力を最適化するために利用されるRAG(Retrieval-Augmented Generation)を実現できます。下記のコマンドはオブジェクト・ストレージ上のファイルをHeatWaveのメモリ上にロードし、自然言語で問い合わせを行ったコマンドの例です。

RAGの利用例(HeatWave GenAI発表動画より)
AGの利用例

HeatWaveは生成AIと機械学習の両方を利用するアプリケーションを高速に実行できる基盤として進化しています。製品発表の動画では、金融機関での不正が疑われる取引の検出のアプリケーションとして、HeatWave AutoMLでの異常値検出にて取引を抽出し、HeatWave GenAIによって理由を含むアラートの文章が出力される例を紹介していました。生成AIや機械学習の専門家でなくても活用できます。

HeatWave GenAIの利用には、他のAIサービスを使わずインデータベースLLMを利用する場合には追加費用がかかりません。OCIのみならず、AWSやAzure, 専用リージョンやOCI Alloyを含むHeatWaveが対応する全ての環境で、HeatWave GenAIを利用可能です。

[PostgreSQL]2024年6月の主な出来事

6月はPostgreSQLのバージョンアップや新しいベータ版のリリースはありませんでした。今回は5月末に開催されて前回106回にお伝えできなかった、PostgreSQLエンタープライズ・コンソーシアムの成果発表について詳しくお伝えします。

PostgreSQLエンタープライズ⁠コンソーシアム活動成果発表会の報告

この連載の第105回でお知らせしたとおり、5月31日にPostgreSQLエンタープライズ・コンソーシアム(PGECons)2023年度の活動成果を発表するセミナーを開催しました。PGEConsは設立されて13年目を迎え、正会員17社と一般会員68社が参加する団体に発展しています。ここでは今回のセミナーで発表された技術部会の3つのワーキンググループ(WG)の報告から印象的だったものを報告します。

WG1⁠定点観測(バージョン間性能比較)
SRA OSS LLC、正野裕大さんによる報告です。
定点観測として実施しているPostgreSQLの新旧バージョンの性能測定の結果で、今回はマルチコアCPUでのバージョン15と16の性能比較を行っています。比較対象はバージョン15.5と16.1です。資料には前年に実施した15.1の性能値も併記していますが、OSなど環境が同一ではないのであくまで参考情報になります。
検証を実施した環境は、昨年と同じくAmazon Web Services(AWS)の仮想マシンを使用し、OSはRocky Linux 9.3(前年はRedHat Enterprise Linux)で、セットアップ作業はAnsibleで自動化しています。
まず、参照処理の性能ですが、同時32接続まではスループット(TPS)が右肩上がりで増加しますが、32~64接続で頭打ちとなりました。バージョン16.1が若干高い性能を示していますが5%程度なので大きな差というわけではありません。スループットが頭打ちになった状態ではCPUがボトルネックとなっています。今回の検証はvCPU数32個の環境で実行しているので、CPUリソースを多くすると多重接続時の性能も更に向上するのではと期待したくなります。
次に、更新処理の性能ですが、こちらは接続数が256〜432で頭打ちとなっています。こちらもバージョン間で大きな差は無いようです(15.5から16.1で約3%向上⁠⁠。更新処理が頭打ちになった状態ではCPUにはまだ余裕があり、ボトルネックはソフトウェア割り込みであろうと推察されるとのことですが、その発生原因は特定できておらず解明は今後の課題となっています。
参照系処理の性能検証結果(講演資料より)
参照系処理の性能検証結果
WG2⁠はじめてのPostgreSQL移行
富士通株式会社、岩田彩さんの報告です。
PGEConsでは、設立した2012年からPostgreSQLへのデータベース移行作業と工程ごとの作業内容について調査・検証を継続してきました。その中で、2018年度の成果物である「移行ガイドブック」の改訂の必要性を以前から感じていました。このガイドは現在でも参考になる内容が多くあります。けれど、現時点で移行について知りたい人にとってはPostgreSQLのバージョンが古い情報も含まれていますし、ガイドの公開日が古いために参考にして大丈夫かどうか迷ってしまうのではないかという懸念もあります。
また、このガイドの作成当時は「OSS採用を躊躇してしまう人たち向け」になることを意識していました。しかし、現在はPostgreSQL採用を前向きに検討している方が多いので、そのような採用に前向きな方たち向けのより具体的な情報の必要性が高そうだとの意見もあるようです。この移行ガイドブックの全体像については公開資料をご参照いただくとして、ここでは改定された以降ガイドブックの注目点を紹介します。
「5章 データベース移行作業」では、移行対象をPostgreSQLバージョン16にしています。また、周辺ツール紹介の更新や、テーブル・インデックスの移行についての部分も更新されています。
「6章 アセスメント」では、Oracle DBと PostgreSQLの差異がまとめられています。
データベース移行作業の全体像(講演資料より)
データベース移行作業の全体像
WG3⁠適切なVacuum設定の考察
ヤマトシステム開発株式会社、藤井大和さんによる報告です。
VacuumはPostgreSQLにとって重要な機能ですが、機能の詳細まで理解している方は少ないのかもしれません。そこで、前半では「Vacuumが持つ役割と機能を正しく理解する」ために、Vacuumについての解説がされています。PostgreSQLの追記型アーキテクチャがどのように処理されているのかの習得や復習の教材としてわかりやすくまとまっています。
Vacuumの技術解説に続いていくつかの検証結果が報告されました。
  • 検証1: Standard VacuumとAutoVacuumでの処理時間
  • 検証2: インデックスの量による処理時間変化
  • 検証3: 末尾の空白の切り落とし処理の負荷
  • 検証4: クエリ処理時間について(シーケンシャルスキャン)
  • 検証5: クエリ処理時間について(インデックススキャン)
検証結果はVacuumの挙動を踏まえればもっともな結果を確認するものもありますが、中には少し意外性のある発見もありました。
「検証5:クエリ処理時間について(インデックススキャン⁠⁠ 」は、更新(UPDATE)が多い場合はVacuumも頻繁に行わないとインデックススキャンでも性能が悪化するかどうかの検証です。ところが、結果としてはVacuumをしなくても性能がどんどん悪化するわけではないことが示されました。
UPDATEを1度実行した場合、その後のインデックススキャンによるSELECT実行結果は長く(遅く)なります。ところが、UPDATEとSELECTを複数回実行すると、悪化した処理時間が徐々に短く(速く)なっていく(元に近づいていく)傾向が見られます。この一連の性能測定ではVacuumを実行していません。
PostgreSQLでは、UPDATEクエリによる更新が完了し不要となったタプルを指すインデックスは、次のクエリ実行時に削除が行われるため、Vaccumが行われなくてもインデックスの改善がある程度は働き、それにより処理速度が際限なく低下することはないということです。
クエリ処理時間について(インデックススキャン)の検証結果(講演資料より)
クエリ処理時間について(インデックススキャン)の検証結果

今回の成果発表セミナーでは、上記で紹介した技術部会の3つのWGの他、CR部会(Community Relations部会)の活動状況(SRA OSS LLC、長田悠吾さん⁠⁠、PGECons全体としての新年度の活動計画(日本電気株式会社、黒岩絵美子さん)についても紹介されました。このセミナーでの発表スライドについてはPGEConsのWebサイトで公開されています。

また、時間の関係で詳細には発表されていない点については、詳細な成果報告資料として公開される予定です。ここには2012年からのPGEConsの成果が残っています。今回発表対象となった2023年度分の成果についても、まもなく公開されるでしょう。

OSS-DB Gold試験対策問題集Ver3.0対応版がリリース

OSS-DB Silver/GoldはPostgreSQL技術者の技術力の認定試験ですが、その上位資格Goldの最新版3.0の試験に対応した問題集が5月31日にリリースされました。

試験範囲であるPostgreSQL 12~14の「運用管理⁠⁠、⁠性能監視⁠⁠、⁠パフォーマンスチューニング⁠⁠、⁠障害対応」のカテゴリ別練習問題と模擬試験問題を含めた全146問を収録しています。

2024年7月以降開催予定のセミナーやイベント⁠ユーザ会の活動

イベントごとに利便性のあるオンライン開催や、従来通りのオンサイト(会場)開催、またはハイブリットが混在するようになっています。興味を持たれて参加したいイベントの開催形態にご注意ください。

第47回 PostgreSQLアンカンファレンス@オンライン

日程 2024年7月1日(月)20:30~23:00
場所 オンライン開催
内容
  • 初心者による「使ってみた/動かしてみた」
  • 中級者による「こういうノウハウ使ってる」
  • 上級者(?)による「こういう拡張してみた」
その他、PostgreSQLに関連する話題であれば何でもOK!アンカンファレンス形式なので、何が出るかは当日参加してのお楽しみ。
主催 PostgreSQLアンカンファレンス

MySQL超入門⁠ゼロから始めるMySQL

日程 2024年7月9日(火)16:00~17:20
場所 オンライン開催
内容 これからデータベースを学ぶ全ての方へ!
MySQLは世界で最も普及しているオープンソースのデータベースです。Facebook、Twitter、YouTubeなど、世界中にユーザーがいるWebサイトを支えています。また、最も使いやすいデータベースの1つであり、データベースをこれから学ぶ初心者にも最適です。本セミナーでは、MySQLの利用方法をデータベースの基本的な概念を交えてご紹介します。初めてMySQLやデータベースに触る方におすすめのセミナーです。
【セミナーの主な内容】
  • MySQLとは
  • 基本的な機能と操作方法
  • 直近のエンハンス内容
  • データベースのトレンドとMySQL
主催 日本オラクル株式会社 MySQL Global Business Unit

オープンソースカンファレンス2024 Kyoto

日程 2024年7月27日(土)10:00~18:00
場所 京都リサーチパーク(京都市)
内容 今回お知らせするKyotoはいずれも展示とセミナーの両方を会場にて開催します。セミナーのオンライン配信は予定されていません。ただし、出展者が独自に配信を行うセミナー枠はあるかもしれません。今回の冒頭でもお知らせしたように、OSSコンソーシアムも出展参加して企画セミナーを行います。その他のOSSデータベース関連の展示やセミナーは公開されたプログラムをご参照ください。
主催 オープンソースカンファレンス実行委員会

アシストフォーラム2024(PostgreSQLセッション有り)

日程 2024年7月8日(月)10:00~7月26日(金)17:00(配信期間)
場所 ウェビナー(オンデマンド配信)
内容 株式会社アシストによるさまざまな分野にまたがる総合的なイベントですが、ユーザ企業によるPostgreSQLの事例発表が含まれています。
  • PostgreSQLへの移行から定着・普及に向けたポイントとは
  • 現場DXの葛藤!リスキリング推進への挑戦とEDB(PostgreSQL)移行の物語
主催 株式会社アシスト

dbtech showcase 2024

日程 2024年7月11日(木)10:00~7月12日(金)18:30
(アーカイブ配信:2024年8月中旬~)
場所 TKP市ヶ谷カンファレンスセンター
内容 国内で開催されるデータベース関連の主要なカンファレンスのひとつです。OSSデータベース専門のセミナーではありませんが、MySQLやPostgreSQLをはじめさまざまなOSSデータベースについての多数のセッションが毎年設けられています。
主催 株式会社インサイトテクノロジー

MySQL 8.4 入門セミナー ⁠ アーキテクチャ編

日程 2024年7月26日(金)16:00~17:00
場所 オンライン開催
内容 MySQL 8.4入門シリーズ第1弾!
MySQLの導入や利用にあたって必要となる、体系的な知識を学べると好評のMySQL入門セミナー。本セミナーでは2024年4月にリリースされた最新バージョンのMySQL 8.4 LTS に対応しております。 本セミナーでは、MySQL 8.4の基本的な操作方法、基礎的なアーキテクチャを解説します。InnoDBの基本的な設定やファイル構成、サンプルデータベースの活用方法などについても説明します。基礎的な知識の確認などにもぜひご活用ください。今後は8月に「高可用性編⁠⁠、10月に「運用・監視編⁠⁠、来年1月に「パフォーマンスチューニング編」を計画しています。ご期待ください。
主催 日本オラクル株式会社 MySQL Global Business Unit

おすすめ記事

記事・ニュース一覧