MT形式のブログデータをさくらのブログに取り込んだ

1年前にサービスが終わったライブドアの「ロケタッチ」のログをさくらのブログにインポートしてみました。

終了当時はライブドアブログに移行すれば画像データもそのまま残りますよということだったので、特に深く考えることもなくライブドアブログに移行しておいたんですが、さくらのレンタルサーバーもあることだしデータの集約でもしようかということで実行してみました。

移行前のひと手間

ロケタッチからダウンロードしたデータが残っていたので、ライブドアブログからはエクスポートせずにこれをそのまま使います。

なぜか一部のユーザーの方のお名前が”-“になっていたので、インポート前にこれを修正します。

<dt><span class="comment_from">-</span> / <span class="comment_at">2012-09-03 07:52:20</span></dt>

コメント欄に表示されるユーザー名はcomment_fromクラスのspanタグで括られているのでsedで一括変換。

<loctouch.mt.txt sed 's/>-</>correct_name</g' >  loctouch_new.mt.txt

画像の移行

さくらのブログはココログとはてなダイアリーからの移行であれば、自動で画像を持ってきてくれるみたいなんですが、残念ながら今回の画像データはライブドアの中。

ではさくらのレンタルサーバースペースに全ての画像を保存して、これを参照するようにしましょう。

<img src="http://stf.livedoor.com/folkat/picture/hogehoge.jpeg">

画像参照部分は上記のようになっているので、urlを抜き出してwgetでダウンロードします。

<loctouch_new.mt.txt grep -e "<img " | sed 's/.*"\(.*\)".*/\1/' | while read line; do wget $line; done

2000ファイル以上あったので、手動とか絶対無理。(´Д` )

最後にデータを下ごしらえして、これをインポートしたら出来上がり。

<loctouch_new.mt.txt sed 's/\(^.*\/\/\).*\(\/.*$\)/\1new-path\2/' > loctouch_final.mt.txt

インデックスはしないでおこう

もともと位置ゲーみたいなSNSなのでオープンなデータではあるんですが、とりあえず検索エンジン除けをしておきます。ブログデザインのhtmlをいじって、ヘッダ部にロボット除けのおまじない。

<meta name="robots" content="noindex">

画像ディレクトリにもrobots.txtでロボット除け。

User-Agent: *
Disallow: /

加えて.htaccessファイルで直リン禁止のおまじない。

SetEnvIf Referer "^http://www.piyopiyo.sblo.jp" ref_ok
SetEnvIf Referer "^http://piyopiyo.sblo.jp" ref_ok
order deny,allow
deny from all
allow from env=ref_ok

こんな感じ。

0 0 votes
Article Rating
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments