コラム
木も見て森も見たい(2)~自治体財務データから見えるもの
2020.05.25
自治体財務データを眺めていくと何がみえるのか。連載テーマ「木も見て森も見たい」第二回をお送りします。
データの入手
さて前回試みに「ハード事業」と「ソフト事業」に分けて考えましょう、ということでお話を致しました。ここでいうハード事業とは公共施設一般であり、本来道路・橋梁等のインフラ施設も含むニュアンスがあるのですが、今後の議論ではインフラ施設は除外して考えます。
次は、いよいよデータの分析に入りたいのですが、その前に分析対象となるデータを入手する必要があります。呑気なことを言っていて恐縮ですが、全部公開データを使って分析したいと思っております。まず、財務データですが、これは手に入れるのにはハードルが高いです。ある程度まとまったデータであれば、各団体が公表しておられる決算書や、政府統計データベースe-Stat(※1)に収録されている「地方財政状況調査」などが利用できるのですが、生の執行伝票となるとなかなかお目に掛かれません。
辛うじてA区様が2019年度のデータを公表(※2)していらっしゃるのを見つけたので、そちらをサンプルとして使わせて頂くことにします。更に施設に関する情報も欲しいので、サイトを探しに行ったのですが、残念ながらA区様は固定資産台帳を公表しておられない。(※3)ここでいきなり困ったのですが、A区様のWebサイトを渉猟(しょうりょう)したところ「公共施設等総合管理計画」「施設白書」「財務報告書」といった資料が有りました。
これらの資料の中に施設に関係する情報が入っていますので、必要なデータを抽出して分析に使おうと思います。ここで「必要なデータ」というのは、当然何を分析したいか、という問題意識に依存します。差し当たり欲しい情報は、「どんな施設があるか」「大きさは」「管理している担当部署は」といった項目になります。
手作業では間違える
では、いよいよデータを手元に読み込んで行きます。まず、歳出データです。
上記のサイトに行きますと、素晴らしいことに表形式でデータを提供しておられる。素晴らしいという他ありません。4月度分から3月度分までの一年度分、月ごとに分けて12ファイル登録されています。ひと月分で数千件のデータ数があり、ファイルサイズはそれぞれ1MB無さそうです。
手元では一年分のデータセットが欲しいので、12ファイル全てをダウンロードして、全て結合する必要があります。表計算ソフトに親しまれた皆さんであれば、何の造作もない作業でしょう。手練れの方なら1ファイルにまとめあげるまでほんの30分も掛からないかも知れません。まず、ダウンロードファイルを保存するフォルダを自分のPCに作り、全部揃ったら一つ一つファイルを開いて、コピペで一つのファイルに貼り付けて、ハイ出来上がりです。出来ました。
では、次の作業に・・・、ということなのですが、何か悔しくないでしょうか。綺麗なフォーマットで公表されているデータについて感謝?こそすれ、悔しいことなど有ろう筈もないのですが、ただ、同じ作業を何度も繰り返し行わざるを得なかった点に忸怩(じくじ)たる思いが残るのです。どうせならURLを指定して、ポチッとコマンドを送るだけであとは、手元に自動的に集約されたデータが欲しい。たかが10やそこらのファイルを纏めるに何を横着な!ということでお叱りを頂くかも知れませんが、これが100や1,000の単位になったらどうでしょうか。
これから何度も登場しますが、政府統計データベースe-Statには多種多様なデータが格納されており、大変重宝しております。例えば先述の「地方財政状況調査」であれば、現在過去30年の時系列データが取れます。仮に「全自治体分・普通建設事業費・目的別・財源別内訳別・年度別」のデータが欲しいとなると、年度別にデータが登録されているので、手動でやるなら少なくとも30回はダウンロードし、間違えない様にファイルを繋ぎ合わせないといけないのです。
こうなると皆さんが如何に表計算ソフト熟達者とはいえ、作業を間違うリスクが出てきます。そろそろ、こういう単調作業の繰り返しは止めたいと思うのですが。有り難いことに、e-StatではAPIが公開されていますので、予め取得しておいた個人のIDでサイトにアクセスし、欲しいデータ系列の番号を指定してやれば、後は自動でドカンとデータがダウンロード出来る様になっています。
ちょっと横道に逸れましたが、A区様のサイトの場合でも、実は「ほぼ自動」でファイルのダウンロードから1ファイルへの結合まで行うことが可能です。ただその為にはツールの導入が必要になります。そのツールについても世の中には便利なものが色々と出回っていると思いますが、このコラムでは「フリー・オープン」の素材でやりたいと思っていますので、ちょっと取り回しが面倒だったりするのですが、フリーのツールを使ってデータ取得を行いました。
またここで「フリーのツール」ってどんなものだ、という話になるのですが、例えば、今や機械学習の分野などで興隆を誇る「Python」(※4)とか、いわゆるプログラミング言語の類です。プログラミング言語といわれるとギョッとするのですが、要するに「こんな手順でやってくれ」という指示をPCなりサーバなりに出せれば良い訳です。データを取ってくるURLを指定し、HTMLの構文を解析して、必要なファイルの在り処を特定し、ダウンロードするコマンドを送り、手元に保存したファイルを一気に結合する・・、という手続きです。
Pythonなどは初学者が入門し易い作りになっているということで、人気が有る様です。筆者はPythonには馴染みが無いので、多少使ったことのある「R」というプログラム言語でやっています。因みにRですと大体20行くらいコードを書けば上記の手続きがリターン一つで実行出来ます。それ、むしろ手間掛かってるだろ!とお叱りを頂きそうですが・・・。
実は大変なのはここからでして、PDFファイルと勝負しなければなりません。現代に生きる我々が目で見ながらデータを転記する、など行ってはいけないと思うのですが、なかなか大変でした。次回はそのあたりから進めていきます。
(次回に続く…)
コラムニスト
公共事業本部 ソリューションストラテジスト 松村 俊英
参考
- ※1政府統計の窓口(e-Stat):https://www.e-stat.go.jp
- ※2公金支出情報の公表: https://www.city.adachi.tokyo.jp/kaikei/kokinkohyo.html
- ※3固定資産台帳の各地方公共団体のホームページにおける公表状況(総務省): https://www.soumu.go.jp/iken/kokaikei/koteishisan01.html
- ※4Python Japan: https://www.python.jp/
関連コラム
- 木も見て森も見たい(1)~自治体財務データから見えるもの
- 木も見て森も見たい(2)~自治体財務データから見えるもの
- 木も見て森も見たい(3)~自治体財務データから見えるもの
- 木も見て森も見たい(4)~自治体財務データから見えるもの
- 木も見て森も見たい(5)~自治体財務データから見えるもの
- 木も見て森も見たい(6)~自治体財務データから見えるもの
- 木も見て森も見たい(7)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(8)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(9)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(10)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(11)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(12)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(13)~公共資本ストックと地価に関係はあるか~
- 「データ分析を考える」コラム一覧に戻る