人工知能・データサイエンス・プログラミング・マーケティングに新たな発見を

Python データサイエンス

Python - readability-lxmlを利用して本文抽出

2018年4月29日

本文抽出のライブラリreadability

PythonでブログのHTMLから本文抽出 2015 - orangain flavor
によるとreadablityが良さそう

readabilityを使ってみる

pipで簡単インストール

readability-lxml 0.6.2 : Python Package Index
を参考に動かしてみる

pipで簡単インストール

pip install readability-lxml

pipのインストールにエラーが発生したら

*********************************************************************************
Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
*********************************************************************************

libxml2っていうライブラリが足らないらしい

apt-get install libxml2-dev
apt-get install libxslt1-dev
pip install lxml

実際に動かしてみる

# -*- coding: utf-8 -*-
from readability.readability import Document
import urllib

url = "https://miningoo.com/998"
html = urllib.urlpen(url).read()
# ここで本文を抽出するがHTMLのタグがそのまま
article = Document(html).summary()
print(article)

-Python, データサイエンス

comment コメントをキャンセル

関連記事

: Python

Python - PandasでCSVファイルの読み込み・書き込み

PandasでCSVファイルを読み込む方法、書き込む方法のメモです。 PandasでCSVファイルを読み込み import pandas as pd pd.read_csv('ファイル名.csv') ...

: Python

Python - 環境構築まとめ

データサイエンスには欠かせない言語であるPython。環境構築のメモです。 Mac で pyenv を利用した Python の環境構築 Python – Macにて pyenv を利用した環境構築 ...

: Python

Python - 辞書（dict型）の使い方まとめ

Pythonで辞書型を使う際のメモです。順次更新します。辞書オブジェクトに要素を追加辞書オブジェクトに要素を追加するには、現在使用していないキーを指定して値を代入する。 """ 辞書オブジェクト[ ...

: Python データサイエンス

Python - PandasでDataFrame型をコピーする際はシャローとディープの違いに注意

PandasでDataFrame型をコピーしたい時には注意が必要。具体的には、新しい変数へ代入するだけだと参照コピーになり、もとのDataFrameの値が変わると代入先の値も変わってしまう。中身はまる ...

: Python データサイエンス

Python - PandasでDataFrameを操る魔術をまとめてみた

Pandasを使うとPythonでデータをテーブルみたいに扱えるようになる。集計したり、解析したりするのが楽ちんに！DataFrameのきめ細かな操作方法がなかなか覚えにくいのでチートシート用メモです ...

Python - コマンドライン引数を扱う方法まとめ

JavaScript - jQueryでユーザエージェントUserAgentを取得し判別する方法まとめ