Pages

December 03, 2010

beautifulsoupが3.0.1から3.2.0に変わったらHTMLParseErrorなくなってた!

beautifulsoupが3.0.1から3.2.0に変わったらHTMLParseErrorなくなっていました。


そういえばアップデートしてないなーとか思いながらeasy_installから実行したら、そうなっちまった。


良いことなのか悪いのか、


間違いなく例外とかfrom importとか書き換えないと行けない場所が出てしまった。


しかし、パースエラーあった部分が問題なくパースされるようになったりどっこいどっこいなのかな。


で、まぁアップデートによって


from html5lib import HTMLParser
from html5lib import treebuilders
from BeautifulSoup import HTMLParseError

try:
 soup = BeautifulSoup(html)
except HTMLParseError, e:
 parser = HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
 soup = parser.parse(html)

とかやって別なパーサーでエラー部分を除去って貰う形をとっていたことが必要なくなったのかな?

ということで前回書いた記事「BeautifulSoupでHTMLParseErrorが起きた時の対処」もこんなことやれば良かったのかな?



まぁまとめるとアップデートしとけ(゚Д゚)ゴルァ!! ですね・・・w

0 コメント:

Post a Comment