Pythonはスクレイピングなどによく利用されます。
ここではネット関連の関数について紹介してきます。
Pythonでネットを扱う関数のまとめ
ライブラリで必要なものはあらかじめインストールしましょう。
ホスト名の取得
socketライブラリを利用します。
import socket print(socket.gethostname())
IPアドレスの取得
ホスト名を渡してIPアドレスを取得します。
import socket myhost=socket.gethostname() print(socket.gethostbyname(myhost))
pingを送る
pingはサーバが稼働しているかどうか調べるために利用します。
ここでは「pings」というライブラリを利用するため、事前に利用可能にしておく必要があります。
import pings
p = pings.Ping()
res = p.ping("komatter.com")
res.print_messages()
実行し、サーバがもんだしなければこのように何バイトがどのぐらいの秒数をへて送られてきたかわかります。
ウェブページのテキストを取得
Requestsというライブラリを使ってウェブブラウザを開くことができます。
このライブラリはpipであらかじめ利用できるようにインストールしておく必要があります。
以下は、reuestsを使って取得後、textを出力させています。
import requests
response = requests.get("https://komatter.com/")
print (response.text)
で、実行すると、このようにコンソールへHTMLのソースコードが表示されます。
このコードをさらに正規表現などで分解すると、特定のデータを取得できることになります。
PDFのテキストを取得
PyPDF2を使うとPDFのハンドリングをPythonから行うことができます。
あらかじめPyPDF2ライブラリをインストールしておきます。
以下は「sample.pdf」を開き、PyPDF2を使ってロードします。
1ページ目の情報を取得し、「extractText」で文字データを抜き出しています。
import PyPDF2
fn = 'sample.pdf'
with open(fn, mode='rb') as f:
reader = PyPDF2.PdfFileReader(f)
page = reader.getPage(0)
print(page.extractText())
Pythonでブラウザを扱う関数のまとめ
ブラウザの起動
Webbrowserというライブラリを使ってウェブブラウザを開くことができます。
このライブラリはpipでインポートしなくても利用可能です。
ただしこのライブラリはインターネットエクスプローラが既定となっているためかIEが起動してしまいます。
import webbrowser
webbrowser.open("komatter.com")