今回は、group byを使って集約を行った際に知っておくと少しだけ便利になるかもしれない集計関数の1つ、group_concat()という関数を紹介していきます。group_concat()を使うと、group byで同じデータを集約する際、文字列としてまとめて扱うことができるようになります。
検証環境
今回はDocker ImageのMySQL 8.0.19を使用しています。検証用のデータとしては、第2回 MySQLにはじめてのデータを入れてみるからKEN_ALL.CSVを利用して作成していきます。
検証データのロードの方法に関しては、第113回 anemoeaterを使ってスローログを可視化してみるに詳しく書いているので今回は省略します。
group_concat()とは?
MySQLに用意されている集計関数の一種で、group byで同じデータを集約した時に、NULL以外の値を含む文字列を連結して返してくれます。言葉で説明してもなかなかに難しいので、実例として実行結果を見ていきましょう。
まずは113回と同様にMySQLに入ります。そして以下のクエリを実行してみましょう。以下のクエリは町単位でgroup byを行ったときの郵便番号を1つの文字列として取得するというコードになります。
実行結果は以下の通りになります。
実行結果は8万6,000件と非常に大きいので、特色的なところを抜き出してみました。この黄金町という町は、郵便番号の散らばり具合から全国にありそうですね。蛇足とはなるのですが、見てみたら全国にあった模様です。
ここで見ていただきたいのはzip_codeの部分で、黄金町でselectした時に出てきた値とgroup_concat()した時の値が一緒のものが出力されているという点です。このようにgroupで集約した際に、文字列を結合して表示することができました。
使用する上での注意点
さて、もの凄く便利そうに見えるgroup_concat()ですが、注意しないといけない点があります。以下のコマンドをMySQL上で実行してみましょう。
実行してみると以下のような結果が得られます。
注目して欲しいところとしては、結果のgroup_concat(zip_code)カラムの一番最後の0970400,
なのですが、最後が,
となっていて何やら続きそうな雰囲気があります。それに最後のwarningが発生している事もわかります。
warningsを見るために、第43回 MySQLの準結合(セミジョイン)についてと第117回 MySQL 8.0のオプティマイザーヒントにも登場したSHOW WARNINGS
コマンドを利用して見ましょう。注意点としては、SHOW WARNINGS
コマンドは1つ前に実行されたSQLのwarningが見れるコマンドなので、スペルを間違えた場合はスペルミスのエラーになってしまいます。注意してください。もしミスをしてしまった場合は、再度group_concat()のSQLを実行してみてください。
メッセージを読んでみると、129行目がGROUP_CONCAT()によって切り捨てられたと書かれています。これはなぜ起こってしまったのかをMySQL公式のgroup_concat()のドキュメントで確認してみましょう。
結果は、group_concat_max_len システム変数で指定された最大長まで切り捨てられました。その変数のデフォルト値は1024です。
ということで、1024文字で切り捨てを行う模様です。今回は郵便番号を利用しています。郵便番号は7文字で、行末のカンマを含めると8文字です。8×128でピッタリ1024となり、129行目が切り落とされる結果になりました。
さて、切り落とされてしまう謎は解明されたのですが、どうしても結果を全件返したい場合もあると思います。その場合の対処方法として、group_concat_max_lenで最大長を変更するという方法があります。とりあえず、SET SESSION
構文で設定をしていきたいのですが、何文字いるのかがわかりません。とりあえず、何カラムあるのかを計測してみましょう。
1874カラムあることがわかりました。先頭から最後の1つ前の文字までは郵便番号とカンマを入れて8文字が必要で、最後の郵便番号は終端にカンマがいらないため、計算式は1873×8+7=14991 となり、14991文字取得できれば良いことがわかります。SET SESSION
構文を使って設定してみましょう。
結果が大きすぎるため省略させていただきますが、末尾の実行結果から、警告が消えていることがわかります。ちなみに本当に合っているか、14990文字を設定して確認してみましょう
こちらは警告が出ているので、正しい値が設定できたことがわかります。
ちなみに、このgroup_concat_max_lenの最大値は64bitのプラットフォームであれば18446744073709551615文字、32bitのプラットフォームであれば4294967295文字と、とんでもなく大きな数字が設定できます。
ということなら、最初から最大値を入れてしまえばよいのではないかと考える人もいるかもしれません。しかし、このシステム変数に最大値を雑に適応してしまうと、サーバに負荷がかかってしまうためおすすめできません。どうしても大きな数字を設定する必要がある場合でも、max_allowed_packetの上限に引っ掛かってしまう場合があるので、合わせて設定することを忘れないようにしましょう。もし、データ量が増えていくシステムでgroup_concat()を利用したいとすれば、将来に向けてプログラムでの処理への置き換えを検討していく必要がある点には注意しましょう。
また、今回は文字列の結果がおかしかったことで気がつくことができましたが、データの取得できる量が足りないというのは開発環境や本番環境でリリースされた後でも気がつくのが非常に難しいバグになります。この機能を使う際にはよく注意をして利用をしましょう。
まとめ
今回はgroup_concat()というgroup byをより便利に使う集計関数を紹介させていただきました。ORマッパーなどを利用している場合にはプログラムで解決したくなることもあるかもしれませんし、そちらがうまくいく場合もあるでしょう。しかし、MySQLにこういった機能があると知っていると実装をする際に取れる選択肢が増えるのと、コマンドラインから同様の事をしたい場合に便利です。
皆さんもぜひ一度試してみてはいかがでしょうか。