本文抽出のライブラリreadability
PythonでブログのHTMLから本文抽出 2015 - orangain flavor
によるとreadablityが良さそう
readabilityを使ってみる
pipで簡単インストール
readability-lxml 0.6.2 : Python Package Index
を参考に動かしてみる
pipで簡単インストール
pip install readability-lxml
pipのインストールにエラーが発生したら
*********************************************************************************
Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
*********************************************************************************
libxml2っていうライブラリが足らないらしい
apt-get install libxml2-dev
apt-get install libxslt1-dev
pip install lxml
実際に動かしてみる
# -*- coding: utf-8 -*-
from readability.readability import Document
import urllib
url = "https://miningoo.com/998"
html = urllib.urlpen(url).read()
# ここで本文を抽出するがHTMLのタグがそのまま
article = Document(html).summary()
print(article)