Pythonでreadability-lxmlを利用して本文抽出

本文抽出のライブラリreadability

PythonでブログのHTMLから本文抽出 2015 – orangain flavor
によるとreadablityが良さそう

readabilityを使ってみる

pipで簡単インストール

readability-lxml 0.6.2 : Python Package Index
を参考に動かしてみる

pipで簡単インストール

pipのインストールにエラーが発生したら

libxml2っていうライブラリが足らないらしい

実際に動かしてみる


もしよければ応援クリックお願いします
↓↓↓↓↓
にほんブログ村 IT技術ブログ IT技術メモへ