読者です 読者をやめる 読者になる 読者になる

pythonと過ごすめろの日記

日記といっても毎日書けません。

WEBのソースコードをpythonでとる!

今回はpythonでwebサイトのソースコードを習得してみようと思います。

コードはこれ 

import urllib.request
url_c = urllib.request.urlopen('http://google.co.jp')

url_conversion = url_c.read().decode('shift-jis')

print(url_conversion)

これでいけるはず。

意味を解説していきます。

 

1行目-- imoprt urllib.requestはモジュールライブラリというものを呼び出しています。このコードを使うためのライブラリです。

2行目--url_c にgoogleのソースを入れて

3行目--url_c.read()でファイルの読み込みます。

そこで問題があります。

ここがポイントです

本当は後ろの.decode('')は要らないのですがこのままでは日本語がバイト列で表示されてしまうのです。

f:id:honkemero:20170402205408j:plainこれじゃわからない。家の鳥も怒ってますよ

なのでデコードするわけです

.decode('shift-jis')

WEBサイトがshift-jisで記述されている場合は上のコードですね

googleはshift-jisで記述されていますので。

4行目---print(url_conversion)簡単ですね。出力させています。

 

では実行してみましょう!

f:id:honkemero:20170402210752j:plain

できましたねー

 

でもこんなエンコード方式を見つけデコードしないといけないなんていちいちめんどくさいですよね???

 

そこで考えてみました。自動で推測してくれるのを書けばいいと。

前の投稿で言ったようにpipが使えないのでそれは今度書きますね。。。

また前の投稿の話になるのですが、1時間後に出すって言ってましたよね?エイプリールフールのネタです(大嘘)

 

ただただネタを探していたら寝てました。すみません。

 

では今日はこの辺で。