Python データサイエンス

Python - readability-lxmlを利用して本文抽出

本文抽出のライブラリreadability

PythonでブログのHTMLから本文抽出 2015 - orangain flavor
によるとreadablityが良さそう

readabilityを使ってみる

pipで簡単インストール

readability-lxml 0.6.2 : Python Package Index
を参考に動かしてみる

pipで簡単インストール

pip install readability-lxml

pipのインストールにエラーが発生したら

*********************************************************************************
Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
*********************************************************************************

libxml2っていうライブラリが足らないらしい

apt-get install libxml2-dev
apt-get install libxslt1-dev
pip install lxml

実際に動かしてみる

# -*- coding: utf-8 -*-
from readability.readability import Document
import urllib

url = "https://miningoo.com/998"
html = urllib.urlpen(url).read()
# ここで本文を抽出するがHTMLのタグがそのまま
article = Document(html).summary()
print(article)

-Python, データサイエンス