データサイエンティスト検定とは?
私たちの身の回りは、データに溢れています。気温や降水量、人口といった公的なもの、商品の販売履歴のように企業独自で収集しているもの、さらにはSNSでの投稿や動画・音楽など……。これらのデータが蓄積されるにつれ、有効に活用し、課題を解決に導くスペシャリスト が求められるようになりました。データサイエンティスト検定(DS検定)は、こうした状況の中でデータサイエンティストとして活躍していくために必要なスキルを持っているか証明する試験です。
データサイエンティスト検定で問われる項目
DS検定では、一般社団法人データサイエンティスト協会が公表した「スキルチェックリスト 」と数理・データサイエンス教育強化拠点コンソーシアムが公開している「数理・データサイエンス・AI(リテラシーレベル)におけるモデルカリキュラム 」をもとに出題されます。中でもスキルチェックリストでは、データサイエンティストに必要な知識をデータサイエンス力、データエンジニアリング力、ビジネス力の3つに大別してまとめています。
データサイエンティスト協会公式HP より
これらはどれかひとつでも欠いてはならず、3つ兼ね備えることが重要です。それぞれを細かく見ていきましょう。
データサイエンス力
データサイエンス力は、「 情報処理・人工知能・統計学などの情報科学系の知恵を理解し使う力 」として定められています。たとえば、集められたデータに対して分析を行う前に、必要なデータが揃っているか確認する必要があります。分析にあたっては、微分や積分、線形代数、統計や検定など、幅広い数学的な基礎知識が求められるでしょう。さらにデータの可視化や、モデルとして利用可能な形にすることも重要な要素です。
これらを総合して、データサイエンス力と呼びます。
例題
あなたはデータサイエンティストとして建設機械の故障検知を行っています。故障検知のために効果的なアプローチとして、最も適切な方法を1つ選べ。
a. 検知モデルのパラメータや構造を複雑化させる
b. 機械のセンサーデータの質を向上させる(ノイズのフィルタリング、データの補完など)
c. 検知に使用するデータセットのサイズを減らす
d. 故障検知の処理時間を短縮する
解答 :b
データエンジニアリング力
どれだけ優れた分析を計画できても、実際に実装できなければ意味がありません。この、「 データサイエンスを意味のある形として扱えるようにして、実装・運用する力 」をデータエンジニアリング力と言います。表計算ソフトやSQLを正しく扱えるか、Pythonなどを駆使してプログラミングができるか、セキュリティ対策について知識はあるかといったことが主に問われます。
例題
あなたはデータ分析チームからの要望で、外部から受け取ったExcelファイルのデータを分析用データベースにインポートするタスクを任されました。Excelファイル内には、'2023-09-01'
の形式で記載されている日付データが含まれています。これをデータベースで扱いやすい日付型に変換して格納する必要があります。この変換を実行するためのSQL関数として、以下の選択肢から最も適切なものを1つ選べ。
a. CONVERT_DATE('2023-09-01')
b. PARSE_DATE('YYYY-MM-DD','2023-09-01')
c. STRING_TO_DATE('2023-09-01')
d. TO_DATE('20230901','YYYYMMDD')
解答 :d
ビジネス力
「課題背景を理解した上で、ビジネス課題を整理し解決する力 」として、ビジネス力も重要視されています。まず、データサイエンスをはじめるためには、解決すべき課題を見定め、それを取り巻く状況を把握する必要があります。そしてどのように分析を進めるかというアプローチの設計も欠かせません。さらに、データサイエンスプロジェクトの評価や改善、法律やガイドラインへの理解なども求められます。
例題
書籍販売会社から、売上減少の原因について分析してほしいと依頼を受けた。分析に入る前のデータ入手における行動として、次の中で最も適切でないものを1つ選べ。
a. 書籍や出版業界におけるデータを一通りリスト化し、依頼元が保有しているデータについて確認する
b. 依頼元のシステムにあるデータの中で、今回の分析に関係するであろうデータを依頼元に選んでもらい、データを送ってもらうように手配する
c. データを入手時に別途追加費用が必要なデータがないかを確認する
d. 売上減少の原因について仮説を立案し、関係者にヒアリングし、必要なデータを特定する
解答 :b
数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム
これらに加え、「 数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム 」も試験の対象となります。これは大学等での数理・データサイエンス・AIに関する教育が行われることを見据え、策定されたモデルカリキュラムです。社会におけるデータやAIの利活用状況からデータに関するリテラシーなど、日常生活や仕事など、様々な場で使いこなすための基礎的な素養を身に付けることができます。
スキルチェックリストver.5では何が変わった?
2023年10月に、スキルチェックリストはver.4からver.5に改訂されました。この改訂では、ここ数年で爆発的に広まった生成AIとの使い方・向き合い方 を中心に加筆されています。データサイエンスを進める上でも、生成AIの影響は非常に大きなものでした。アイデアの壁打ちやちょっとした調べもの、コードの生成まで多様な役割を果たすことができます。しかし出力の正確性やプライバシー面など、様々なリスクを内包しているほか、生成AIへの指示であるプロンプトにも工夫が必要など、知らなければいけないことは多様にあります。しっかり勉強し押さえておきましょう。
例題
生成AIを用いて複数の文やアイデアを生成させる際に、少量のサンプルを与える技法のうち、出力結果をテーマに関連する内容にするために利用される技法の名称を次の中から1つ選べ。
a. Few shot Prompting
b. Chain-of-Thought
c. Backward Chaining
d. Active Learning
解答 :a
データサイエンティスト検定の詳細
データサイエンティスト検定は、下記の通り、全国の会場にて開催されています。次回試験期間は6月8日(土)から6月30日(日) で、現在申し込み受付中です。
出題数 :100問
試験時間 :100分
出題形式 :CBT方式で四肢択一
試験期間(予定)
第7回:2024年6月8日(土) ~2024年6月30日(日)
第8回:2024年11月9日(土) ~2024年12月1日(日)
第9回:2025年3月8日(土) ~2025年3月30日(日)
(申し込みは試験の約2ヶ月前から)
詳細はデータサイエンティスト協会の公式HP もご確認ください。
関連商品紹介
データサイエンティスト検定本
『最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版 』では、出題範囲となるすべての項目を、詳細に解説しています。データサイエンティスト検定の対策にも、その後データサイエンティストとしてキャリアを歩んでいく上でも参考になる一冊です。
データサイエンスの関連書籍
データサイエンティスト検定を機に、データサイエンスをはじめる方や、もっと学んでみたい方もいるかもしれません。そんな方には、下記の書籍がオススメです。
関連資格の本
DXが進む中、すべてのビジネスパーソンが「ITソフトウェア領域」 、「 人工知能(AI) ・ディープラーニング領域」 、「 数理・データサイエンス領域」においてリテラシーレベルの知識を身に付けることが推奨 されています。それぞれ「ITパスポート試験 」「 G検定 」「 データサイエンティスト検定 」が対応しており、取得数に応じてデジタルバッジが発行されます。技術評論社では、ITパスポート試験、G検定いずれも参考書を刊行しています。併せて勉強し、デジタル社会で活躍できる力を身に付けましょう!