皆さんこんにちは。
業務ハックLabのよーよんです。
新型コロナワクチンの接種がどんどん進んできていますね。
自分自身も少しでも早く打てればいいなと考えている今日この頃です。
新型コロナいえば以前、陽性患者数の推移をPower BIで作成したのですが、ワクチン接種の状況の見える化もしてみようと思い、オープンデータになっていないか確認してみたところ、下記ページでオープンデータがありました。
今日はこのサイトからデータを取得し、Power BIで見える化をしていきたいと思います。
せっかくですので前に作った静岡県の新型コロナウィルス感染症発生状況のPower BIレポートに追加します。
それでは早速行ってみましょう!
データの取り込み
上でも書いた通り、今回はすでに作成済みのレポートにデータを追加していきますのでまずはpbixファイルを開いておきます。
- ホームタブの「データを取得」から「Web」をクリックします。
- 政府CIOポータルより新型コロナワクチンの接種接種状況のオープンデータURLをコピーし、貼り付け、OKボタンをクリックします。
https://vrs-data.cio.go.jp/vaccination/opendata/latest/prefecture.ndjson
- 次に上記データは都道府県コードしかない状態なのでコードから都道府県名を調べる為、下記データカタログサイト(DATA GO JP)から「全国地方公共団体コード(総務省所管)」を取得します。
取り込みの手順は上記と同じです。
- WebからというウィンドウでURLを指定しOKをクリックすると「DataSource.Error」と表示されますがそのままOKをクリックします。
- ナビゲーターが開くので「R1.5.1現在の団体」にチェックを入れ「データの変換」をクリックします。
データの取り込みはこれで完了です。
Power Queryでのデータ成型
次は取り込んだデータをPower Queryで成形していきます。
Power BIでレポートを作る際、このデータの成型が非常に重要です。
Power Queryは非常に便利なツールなので覚えておいて損はないです。
都道府県データの成型
- 前段で取り込んだデータを確認すると取り込んだ時点で列の型変更がされているのでステップから削除します。
- 「団体コード」列と「都道府県名(漢字)」列を選択、右クリックし、「他の列の削除」をクリックします。
- 「団体コード」列を選択し、変換タブの「抽出」から「最初の文字」をクリックします。
-
- 団体コード」列を選択、右クリックし、「重複の削除」をクリックします。
これで都道府県コードの成型は完了です。
ワクチン接種状況のデータ成型
- 前段で取り込んだ新型コロナワクチンの接種接種状況のオープンデータを確認すると下記のような表示になっているのでファイルを右クリックし「テキスト」をクリックします。
- ファイルが展開されたことを確認します。
- 変換タブの「値の置換」で下記のように置換を行います。
「"」、「{」、「}」を「空白」
「,」を「:」
- ホームタブを「列の分割」から「区切り記号による分割」をクリックします。
- 区切り記号を「コロン」、分割を「区切り記号の出現ごと」に設定しOKをクリックします。
- 列が区切られるのですがその際に自動的に各列の型変更がされてしまうのでステップから削除します。
- 下記列の名称を変更します。
変更前 変更後 Column1.2 日付 Column1.4 都道府県コード Column1.6 性別1 Column1.8 年齢1 Column1.10 医療従事者 Column1.12 接種回数 Column1.14 接種人数計 - 名称変更した列をすべて選択、右クリックし、「他の列の削除」をクリックします。
- 列の追加タブで「条件列」をクリックし、「性別1」列のデータと「年齢1」列のデータを下記の形で変換し「性別」列、「年齢」列を作成します。
- 変換した列を追加したら「性別1」と「年齢1」はいらないので削除します。
- このデータに都道府県データから都道府県名を追加する為、クエリのマージを使用します。
ホームタブから「クエリのマージ」をクリックします。
- 下の段で取り込み済みの都道府県データを選択し、都道府県コードと団体コードを紐づけ(クリックするだけ)、結合の種類は「左外部(最初の行のすべて、および2番目の行のうち一致するもの」を選択。
上記設定が終わったらOKをクリックします。
- データの最終列に都道府県データが追加されたことを確認します。
- 都道府県データの矢印(下の画像参照)をクリックします。
- 「都道府県名(漢字)」にのみチェックし「元の列名を・・・」のチェックを外してOKをクリックします。
- 「日付」列、「接種人数計」列の型をそれぞれ変更します。
列名 型 日付 日付 接種人数計 10進数 - 今回のデータは静岡県のデータのみが必要なので「都道府県名(漢字)」列のフィルタで「静岡県」のみにチェックを入れ、OKをクリックします。
- 集計値としては2回目完了済みのデータのみを使用するので「接種回数」列で「2」のみにチェックを入れ、OKをクリックします。
- ホームタブの「閉じて適用」をクリックし成型完了です。
Power BIでのビジュアル変更
最後にPower BIのビジュアルの変更をします。
もともとあった月別陽性者数のデータを変更し直近3か月の陽性者数、ワクチン接種者数のグラフに変更します。
- モデルページで取り込んだワクチン接種者数データの「日付」列とカレンダーテーブルの「Date」列のリレーションを設定します。
-
- 視覚化のメニューから「折れ線グラフおよび積み上げ縦棒グラフ」をクリックします。
- タイトルを「直近3か月の陽性者、ワクチン接種者(2回目完了)数」に変更します。
- 共有の軸をカレンダーテーブルの「年月」から「Date」に変更します。
- 線の値に「接種人数計」を設定し、名称を「ワクチン接種人数(2回目完了)」に変更します。
- フィルターでこのビジュアルのみ相対日付にします。
「基本フィルター」となっている個所を「相対日付」にして、最近の3か月という設定にします。
- グラフが以下のような感じになれば設定完了です。
如何だったでしょうか?
Power BIでビジュアルを作成するにはデータがしっかりしていることが前提となります。
今回の説明の中でも成型を行うPower Queryのパートが多かったと思いますが元データを集計しやすいようにすることによって後々の集計に影響が出てきます。
こういったオープンデータからのレポート作成に限らず、BIで視覚化するすべての内容においてこれは言えると思います。
ソースとなるデータがしっかりしていなければ視覚化したデータも当然しっかりしたものになりません。
BIツールでレポートを作成するときはその点を念頭に置いておきましょう!
それでは皆さん良い業務ハックライフを~