mathpython

Python3とBeautifulSoup4でサイトのタイトルを取得する

前提

beautifulsoup4 と lxml を仮想環境内に pip でインストールします。

pip install beautifulsoup4
pip install lxml

コード

import urllib.request
from bs4 import BeautifulSoup

url = 'https://www.mathpython.com/'
html = urllib.request.urlopen(url=url)
soup = BeautifulSoup(html, 'lxml')

title = soup.title.string

print(title)

urllib でページの内容を取得します。それを扱いやすい形にするものが beautifulsoup4 です。最初の引数に urllib でオープンしたもの、次の引数に lxml を指定します。

BeautifulSoup のオブジェクト soup にはページの情報がつまっています。例えば title.string でタイトルを取得します。

広告

教育総合サイト

高校化学専門サイト

色辞典

数の辞典