*注意)この「べじぱみゅの学習メモ」のカテゴリー記事は、ワタクシ自身がこれまでに勉強したいろいろな項目について、テキストにあんまり書いてない内容などを勝手に妄想したメモです。
ワタクシ自身の備忘録のために書いており「初学者にわかりやすく説明する」というものではございません。
導入なしに唐突に話が始まり、おそらく意味不明な文章かもしれません。
しかし、せっかく考えたことなので、記事の内容がもし誰か1人でもお役に立てれば幸いです。

「理系」だけじゃない!

さて、今まで三回にわたって4変数データのMCRについて話してきました。今まではどちらかというと「理科」っぽいお話をしてきました。しかし「データ解析」は何も「理系のテーマ」に限った話ではなく「社会っぽい」話でもよく出てきます。最後にオマケとして、ちょっとそっちのデータ解析のお話も取り上げてみましょう。そもそもデータは「4つの指標で決まるもの」なら何でもいいわけで、分野を縛る必要なんてないのです。

今回は「RESASサマリーサイト」のデータを使わせていただきました。このサイトなかなか面白いです。地域経済分析システム(RESAS)に搭載されている地域経済に関する官民の様々なデータ及びそのグラフを地方公共団体単位でテーマごとに集約した、EXCEL形式のファイルを誰でも無料でダウンロードできます。お国の?サイトにしてはユーザーインターフェースもかなりイケていて、本当に色々なデータが引っ張ってこれる優秀なサイトです。

データとしてはいろいろありましたが、今回はその中でも比較的わかりやすい「人口推移&予測」のデータをいじって遊んでみます。その名のとおり、地域ごとのこれまでの人口推移(実データ)と今後の人口予測データです。全3696箇所の地域ごとに、1980-2045年まで5年刻みで14水準の「年」ごとに、年齢構成(5歳刻み)の人口データがあります。

ここでは(ムリヤリ)4変数データの解析をするために、地域の「位置」を「緯度」「経度」の2変数とみなします。「地域」と横軸で表示するよりも、そうやって「マッピング表示」したほうが理解しやすいです。

ちなみに今回のデータにおける全観測地点3696箇所を全部「緯度」「経度」の2変数に変換した結果を書いてみると

日本地図

こんな感じになります。「地域」を1次元の「名前」で表示されるよりも、こっちのほうがわかりやすいですね。

よって元データとしては

緯度・経度・年・年齢構成で定まる4変数データ

となります。さらっと書いてますが、これだけ詳しいデータ(CSV形式)をタダで持ってこれるのはすごいことだと思います。

実に当たり前の結果・・

つば九郎の元素分析データ解析と同様、元データを4D-MCRにより「圧縮」してみました。いろいろ試したところ「地域」は5個に分けるのがよさそうでした。一方「年齢構成」はいくつに集約したらいいのか、あまりパシっと決まりませんでした。そもそも全部で19水準しかないので最悪そのままでも解釈できるのですが、一応まとめたほうが理解はしやすいです。

ここでは2つ/4つにまとめた結果を示します。まずはわかりやすい2つの場合。

人口分布1

これだけです。解釈はいとも簡単で、要は
「少子高齢化が進んでいる」ということを言っています。もともと19水準だった年齢構成を2成分に分けたのですが、見ての通り「若者」(赤)「老人」(オレンジ)に別れています。5個すべての地域で、若者は徐々に減り老人が増えていく様がわかります。

5個の地域についてですが、最初の2つは東京らへんのどっかです。そして5番目がほぼ日本全国。よーく見ると人口の変化に差があります。5番目の「その他大勢」は2015年ぐらいに若者グループと老人グループがクロスしていますが、都会ではそれがちょっと遅めです。つまり4D-MCR結果から言えることとしては

・全国的に少子高齢化が進む
・都会はそのペースが少しだけ遅い

となります。以外でも何でもない、割と当たり前の結論ですね。でも、当たり前の結果がちゃんと出てくる、ってことはこの手法がまともだ、ってことです(*^^*)

結論こそ当たり前ですが、元の膨大な数値データを見ていただけではなかなか全体的な特徴をつかみきれないと思います。これは4D-MCRの成果と言ってよいでしょう。


今は年齢構成を2つに分けましたが、試しに4つに分けた場合を見てみます。

人口分布2

より詳細な振る舞いは見えるようになりましたが、正直わかりにくいです。私自身もさっきの2水準のほうが意味がわかりやすかったと思います。

この辺はMCRの一般的な傾向です。成分数を少なくする(大胆に圧縮する)ことで傾向は掴みやすくなりますが当然、細かい部分は見落としやすくなります。かといって細かく分けすぎると細かい要素は反映されやすくなりますが全体の傾向が掴めなくなります。そもそも、細かい要素をどうしても見たいならMCRなんてせずに生データを眺めればいいのですが、もはや訳がわからないですね。

「ほどよい圧縮」、難しいです。木ばっかり見ても森ばっかり見てもダメなのです。データいじり屋さんの宿命ですね。ではまた。


はっぴぃ理系らいふ、いぇい
ヽ(・ε・)人(・ε・)ノ キミモナカマニナロウゼ
   

【文責 べじぱみゅ】