コラム
木も見て森も見たい(3)~自治体財務データから見えるもの
2020.06.22
自治体財務データを眺めていくと何がみえるのか。連載テーマ「木も見て森も見たい」第三回をお送りします。
セグメントと精度
前回までに、何とかA区様の公開されている執行伝票(コラム第2回※2参照)を利用可能な状態で入手することが出来ました。当初の方針は、これまで自治体業界でなかなか作られてこなかった「施設別」のセグメントで財務データを集約してみたい、ということでした。
先述の通り、既に執行伝票に「どの施設・建物」向けの支出か、という情報が付いていれば、何の造作もない問題です。しかし、これまで、この施設別というセグメントの必要性が無かったせいか、伝票執行時に「どの施設・建物に使ったか」という情報を付加してらっしゃる団体は少ない様です。勿論、「小学校の水光熱費なんか纏めて支払っているのだから学校別になんて分からない。ましてや、建物別などとんでもない。個別にメーターが付いている訳でもなし、データ取得は不可能」という声が聞こえてきそうです。
ファシリティマネジメント業界の方に、建物ごとの水道料金を月次でチェックしていれば、例月比で異常に水道代が掛かっていれば、どこか故障しているというのが分かる。頻繁に技師の方が点検などしなくとも、分かると教えて貰いました。或いは、特段の異常値でなくとも、学校であれば、多分、水光熱費は児童数・生徒数に比例して金額が大きくなると目星が付きます(これは是非実証してみたいところ)。同規模の学校・校舎を比べて、平均を上回る学校・校舎があれば、「どこかで水が漏れているのでは?」と予測ができる訳です。
この話を聞いた時、なるほど!と思いました。が、やはりここでも問題になるのは「コスパ」(コストパフォーマンス:費用対効果)の問題でありましょう。個別にメーターを付けてチェックするのが安くつくのか、事後的に専門職の方が対応する方が、結果、安く付くのか。既に検証済みの方がいらっしゃったら教えて頂きたいです。
事程左様(ことほどさよう)に、あるターゲットに対してどれくらいの精度でデータを集約するか、ということに関して、コストが掛かる話もありますので、トートロジー(※1)的ではありますが、やはり、「どの程度の精度が必要か」ということになると思います。1,000円の誤差を防ぐために何十万の装置を付けるのか、という話です。勿論、新薬の治験であれば「まあ、だいたいで」というのは許されないでしょう。或いは、自治体の決算など財務会計の世界では「何となく合ってる」では済まされないでしょう。
脱線してしまいましたが、現在議論しているのは、財務データ等を自分の目的に合わせて加工・利用する管理会計と呼ばれる世界です。取り急ぎ、ザックリでも施設ごとのコストを知りたいので、精度の問題は後で議論するとして、先に進みましょう。
A区様の執行伝票には施設情報が無かったので、同区が提供してらっしゃる他のデータソースから施設情報を持ってくる事を考えます。既に「公共施設等総合管理計画」、「施設白書」、「財務報告書」といった資料がある事が分かっていますので、差し当たり欲しい情報を抜き出したい。ということで、データを渉猟(しょうりょう)したところ、「公共施設等総合管理計画」(※2)に情報がありました。
巻末に「資料編」があるのですが、そこに「施設一覧」が用途毎に表形式で載っております。延床面積や建築年度も有って嬉しいのですが、所管課に関する情報が無いのは悲しいです・・。施設の所管課さえ分かれば、それをキーとして、その課で執行した11・13・15節の伝票を施設に紐付けられると考えていたからです。悲しんでいても仕方ないので、まずはこの「施設一覧」をデータ化します。
PDFでも有難いが・・
PDFです。「元データ下さい」と言いたいところを我慢して、テキスト化します。さて、PDFデータのテキスト化って、みなさんどうされているでしょうか。ひたすら手で打ち込む。PDFファイルの必要部分を選択してExcelやテキストエディタにコピペする。あるいは、PDFの開発元の有償サービスを利用してExcelやWordに出力する・・、と色々有ると思うのですが、手作業は間違いの元なので、出来るだけ一気に勝負したいところです。
今回、堪らず有償のExcel出力サービスで変換を試みましたが、PDF開発会社のものは、流石というか比較的綺麗に変換出来ました。ただ、Excelに出力された際に表が縦に並んで出てくるのですが、元々のPDFファイルの表フォーマットが「小学校」とか「博物館」といったグループ毎に違っているため、列がずれてしまいました。例えば、「図書館」の表には名称、面積、建築年度、築年数、構造といった列がある一方、「小学校」になると構造の列がない。情報開示に際しては各担当課に自由度があるんでしょうか・・。フリーソフトでやってみるとどうなるか。
Rなど統計ソフトには様々なライブラリが提供されていまして、データ処理に関しては、まず「出来ない事はない」という印象です。例えば、いずれこのコラムでも取り上げてみたいのですが、地図情報なども取り込めて、空間統計学などが必要な方にもバッチリです。ということで、早速RのPDF関連ライブラリをいくつか試してみましたが、PDFの読み込み処理については、残念ながら「すごい!」というのは見つけられませんでした。
例えば、Rにはpdftools(※3)、tabulizer(※4)などのライブラリが有って、同じフォーマットの表なら何枚でも同時に綺麗にテキスト化してくれるのですが、今回の様に異なる表フォーマットが混在するPDFを一気に処理しようとするとガタガタになってしまいます。まあ、これは致し方ないと申しましょうか、情報提供側もまさかPDFデータをテキスト化して分析するというニーズが有るとは思っていないでしょうし、利用者側としても色々とデータを開示して貰えるのは有難いのだけれど、まさかフォーマットがバラバラとは・・・、という過渡期における悲しいすれ違いでした。
(次回に続く…)
コラムニスト
公共事業本部 ソリューションストラテジスト 松村 俊英
参考
- ※1tautology:同語反復・同意語反復を指す。
- ※2公共施設等総合管理計画: https://www.city.adachi.tokyo.jp/documents/31944/kannrikeikaku.pdf
- ※3pdftools: https://cran.r-project.org/web/packages/pdftools/index.html
- ※4tabulizer: https://cran.r-project.org/web/packages/tabulizer/index.html
関連コラム
- 木も見て森も見たい(1)~自治体財務データから見えるもの
- 木も見て森も見たい(2)~自治体財務データから見えるもの
- 木も見て森も見たい(3)~自治体財務データから見えるもの
- 木も見て森も見たい(4)~自治体財務データから見えるもの
- 木も見て森も見たい(5)~自治体財務データから見えるもの
- 木も見て森も見たい(6)~自治体財務データから見えるもの
- 木も見て森も見たい(7)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(8)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(9)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(10)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(11)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(12)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(13)~公共資本ストックと地価に関係はあるか~
- 「データ分析を考える」コラム一覧に戻る