2011年9月20日火曜日

dbfファイルの文字コード変換 はてなブックマークに追加

国勢調査の結果がshapeファイルで取得できることを知ってダウンロードしたんですが当然ながらsjisで(市町村単位でしかダウンロードできないのでそこも困ったけど)、Webサービス的に使おうとするとshapeのままだと不便なので早速変換したのですが、PostgreSQLで扱う場合はshp2pgsqlだと入力ファイルの文字コードの指定ができるけど、ogr2ogrでは、入力ファイルの文字コードの指定ができないので、dbfファイルをutf-8にしてしまえと、バッチで変換するスクリプトを書いてみた。

dbfの操作は、dbfpyを利用しました。

  • 国勢調査のshapeしかテストしていないので、未知の型だと動かないかも
  • sjisじゃない文字列だとエラーになりました。
  • 最大文字列長ではなく、フィールド定義の文字列数を2倍にしてます。ファイルサイズが気になる方は、先に一回全レコードを走査して最大文字列長を取るといいと思います。
  • マイクロソフト版Shift_jis拡張文字コードのcp932を指定



#!/usr/bin/env python
# -*- coding: utf-8 -*-
from dbfpy import dbf
import os,sys,shutil
#http://dbfpy.sourceforge.net/

def convertDbf(dname):
    #バックアップの作成
    nname = dname[:-4]+".bk"+dname[-4:]
    shutil.move(dname,nname)
    db = dbf.Dbf(nname)
    bfh = dbf.Dbf(dname, new=True)

    #header の作成
    for f in db.fieldDefs:
        (name , type,len,dec) =  f.fieldInfo()
        print f
#     KEY_CODE    C  11   0
#     SETAI    N  10   0
#    X_CODE    N  19   5
        if type == "C":
            bfh.addField((name, type, len*2))
        if type == "N":
            bfh.addField((name,"N", len, dec))
        else:
            bfh.addField((name, type, len))

    #data のコピーと文字コード変換
    for rec in db:
        n = bfh.newRecord()
        for f in db.fieldDefs:
            (name , type,len,dec) =  f.fieldInfo()
            if type == "C":
                n[name] =  unicode(rec[name],"cp932").encode('utf-8')
            else:
                n[name] =  rec[name]

        n.store()
    bfh.close()
#############

for f in os.listdir(os.getcwd()):
     if os.path.isfile(f) == True and f[-3:] == "dbf":
         print f
         convertDbf(f)


合わせて読む
ogr2ogrでshpefileをKML化
娘のサンプルだとKML化後に文字コード変換しているので、事前に変換しておくとよいかも

2011年1月28日金曜日

picasawebにも画像を投稿してみる。 はてなブックマークに追加

Google Baseを試す必要があったので、勉強代わりにPicasa Web Albums Data APIに画像をアップしてみた。

認証ができているかどうかのテストなので適当です。アップ時にメタ情報も登録できるけど、XMLと画像を同時アップが結構手間なのではしょっちゃいました。

  1. 事前に picasawebでアップ用のアルバムの作成と、API Keyの取得が必要です。
  2. albumidは、アルバム情報取得APIできますが、面倒でしたらアルバムページのRSSのURLから抽出できます。
  3.  gbaseのpythonライブラリは、今回は調査がメインだったので使っていません。


#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib
import urllib2

#http://code.google.com/intl/ja/apis/accounts/docs/AuthForInstalledApps.html
#http://code.google.com/intl/ja/apis/picasaweb/docs/2.0/developers_guide_protocol.html#PostPhotos
#コマンドラインからの認証
url = 'https://www.google.com/accounts/ClientLogin'
#picasaweb の service は lh2 それ以外は適宜
params = urllib.urlencode({'Email':"YOUR_MAIL_ADDRESS", 'Passwd':"YOUR_PASSWD","service":"lh2","accountType":"HOSTED_OR_GOOGLE","source":"YOUR_APP_NAME_AND_VERSION"})
f = urllib.urlopen(url, params)
r = f.read().split("\n")[2]
#responce SID,LSIDは不要,Authのみ取得する
Auth = r.split("=")[1]

#画像を開く
i = open("/Volumes/hd1/Users/nishiokya/Pictures/shoebill.jpg","r");
img = i.read()

#user と albumidが必要
url = 'https://picasaweb.google.com/data/feed/api/user/nishiokya/albumid/5304381279593343265'
req = urllib2.Request(url)
req.add_header("Content-Type"," image/jpeg")
req.add_header("Content-Length",len(img))
req.add_header("Slug","shoebill.jpg")
req.add_header("Authorization","GoogleLogin  auth="+Auth)
#google no appid 
#http://code.google.com/intl/ja/apis/base/signup.html
#Installed applications にチェック
req.add_header("key","ABQIAAAAp2K6l3b04u-NrzcaeIej-BT2yXp_ZAY8_ufC3CFXhHIE1NvwkxXXXXXXXXXXXXXXXXXXXX")
req.add_data(img )

try:
   resp = urllib2.urlopen(req)
   print resp.code 
   print resp.info()
   print resp.read()
except urllib2.HTTPError, e:
   print "Error: %s" % e
   print e.read()