kumasysjp

郵政の ZIP データを分割する上での妥協点

1行ずつ読み込むにしても 12万行もある CSV を取り扱ふ訳にもいかなひ。なるべく負担を軽くしたい。もちろんフロントエンドに負担させるやうにするとか、Web技術的なもので工夫すべきことは在る。しかしまずはファイルを分割しておく、というのも一つの手だ。

かといって過剰にファイルを分割しても意味がない。かなり大雑把な考えでいえば、√120000 = 346 、これ以上にファイル分割をする意味はないだろう。

 

都道府県なら 48、 郵便番号上2桁なら 99 、 郵便番号上3桁なら殆ど 999 である。なので上3桁ごとにまで分割する意味はない。

 

郵便番号から検索 → 郵便番号上2桁ごとに分割されたCSV(99個から1個を引いて) を利用

都道府県から検索 → 都道府県ごとに分割されたCSV  (48個から1個を引いて) を利用

 

するのが、動作速度からすれば、ちょうどよさそうだ。

 

しかしそのうえでネックになるのが手間である。それだけのファイルをご用意するという手間である

たとえば日本郵政で都道府県別が公開されているが、これを48回ダウンロードするだけでも気がめいる。ましてや列になにがしかの少しの加工をする場合、48ファイルにそれを手を入れるとなると気が滅入る

それに日本郵政HPでは、上2桁ごとのCSVデータは公開されていない。

 

したがって、もし郵政HPから全国一括CSVに少し加工を加えた場合、それに対してボタン1つで都道府県・上2桁ごとに分割できれば便利である。

 

なお郵政が公開しているCSVのカラム(列)は、そうそう変わるものではない。そういう意味で今回需要ありそうなので作ってみた

 

日本郵政提供、郵便番号CSVデータ分割プログラム