最新 追記
人生はユーモアの調味料

カテゴリ別:CD | Handicapped | spam | ネタ | ビール | ライブ | 映画 | 技術 | 雑記 | 写真 | 社会派 | 調査メモ | 読書メモ | 日本酒 | 入院 | 買い物

1970|01|
2003|11|12|
2004|01|02|03|04|07|09|10|11|12|
2005|01|02|03|04|05|07|08|09|10|12|
2006|01|02|03|04|06|07|08|12|
2007|01|02|03|04|05|06|08|09|10|11|
2008|01|02|03|04|05|06|09|10|11|
2009|01|02|04|05|06|07|08|10|12|
2010|01|02|03|
2013|01|

RSS配布


2006-12-29

_ [技術] Python+Beautiful Soup

 Samurizeで使おうと思い、python朝日新聞のピンポイント天気予報をダウンロードして整形加工するスクリプトをちょっと作成してみた。このページは3時間単位の天気予報なので、特定のタイミングでしかビルの外に出ないリーマン生活には便利なのだよ。

 PythonでHTML/XML解析のモジュールとしては、ElementTreeが有名どころで(実際最新verのpythonでは標準モジュールとして同梱されている)、まずはちょっと試してみる。しかし対象ファイルを直接ファイルハンドルを渡す形な割に、文字コードはutf-8にしか対応しておらず、様々な文字コードが氾濫しているhtml界wwで使用するのはちょっとつらい感じ。ってことでそうそうに脱落。

 次に名前が挙がるのがBeautiful Soupというモジュール。これは普通にhtmlの内容を変数にぶち込んでそれを渡す形なので、文字コード変換なり何なり色々加工してから渡せるので使い勝手はよさそう。その分メモリ食いの可能性はあるわけだが、その辺のhtmlファイルの大きさならば問題ないだろうし(逆にDBっぽい使い方をしているXMLファイルなどはつらいかもしれない。そう言うのならば文字コードもある程度絞れるので前述ElementTreeでも大丈夫だろう)。

 で朝日のページを読み込ませてみるが、色々試してもどうもBeautiful Soupがうまくhtmlをパージングしてくれない。「これはバグか?」と思ったくらいだが、さらに色々確認してみると、なんと朝日新聞のページのhtmlがおかしい。よくよく見るとアンカータグが本来"<a>"となっているべきモノが"<!a>"と言うようになっているのだ。これではパージングができなくても不思議ではない。ということでその辺を置換する処理を施してからBeautiful Soupに読み込ませるとさくさくパージングする。しっかりしてくれよ朝日よ。多分「!」記号は何かフレームワークのタグ記号かなんかで、処理漏れか余計に書いたかしてしまったのだろうな。

_ [社会派]カンボジア虐殺否定論

 以前私は本多勝一の『検証・カンボジア大虐殺』の読書メモにて

南京大虐殺が否定できるんだったらこれ(引用注:カンボジア虐殺)だって否定できるさ

なんてことを書いたわけだが、でましたよ、カンボジア虐殺否定派。

 『わたしが見たポル・ポト』と言う本。立ち読みしかしていないのだが、バリバリ虐殺否定派ですよ。その根拠としては「虐殺前後でカンボジアの人口が増えている」と研究者が指摘しているとかなんとか。どっかで聞いた話。まさに南京大虐殺否定派が同じ理屈をこねている。まあだからどっちも嘘とかなんとか言えるわけではないが、右だろうが左だろうがやることは変わらない。まあ普通に考えれば、そんな非常時の人口統計がどれだけ信じられんの?で終わりな話なのだが。

 こんな本が出てきたということは、カンボジア虐殺否定論がこれからボチボチ出てくるのではないだろうか。そしていわゆるサヨがバンバン言い立てるのではないだろうか。それに対応するいわゆるウヨは、それを否定するためには、自分たちが南京大虐殺否定論で使っているロジックを否定することになるわけだが、それをどう整合性をもたせるのだろうか。楽しみである。是非ともいわゆるサヨの皆さんには頑張ってもらいたい。

本日のリンク元 | 102 | 44 | 6 | 6 | 4 | 4 | 4 | 4 | 4 | 3 | TrackBack(0)

<< 2009/12/ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 >>

クリエイティブ・コモンズ・ライセンス
このworkは、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。