Python 網路爬蟲講座 2015/05/30

爬蟲就是~ 用程式來模仿瀏覽器的使用模式
爬Dcard網站試試看
網頁右鍵->檢查元素-> Network ->Preserve log打開
把這個貼到瀏覽器裡面
看起來很醜
我去裝了JsonView套件

剛剛的Dcard是用GET
所以直接貼網址到瀏覽器上就可以看到資料
但是如果是7-11的
貼上去就沒有QQ
GET vs POST
====================================================
來看看裡面的架構


去seven網站選停車場跟廁所的filter
然後去看
把Form Data view source點一下會看到這串 
把這串貼在
commandid=SearchStore&city=%E8%8A%B1%E8%93%AE%E7%B8%A3&town=%E5%A3%BD%E8%B1%90%E9%84%89&roadname=&ID=&StoreName=&SpecialStore_Kind=&isDining=False&isParking=True&isLavatory=True&isATM=False&is7WiFi=False&isIce=False&isHotDog=False&isHealthStations=False&isIceCream=False&isOpenStore=False&isFruit=False&isCityCafe=False&address=
把前面這整串貼到 firefox 的hackbar裡面

去寫個python來抓這些資料
  • import requests
  • import lxml
  • import lxml.etree
  • data = {"commandid":"SearchStore","city":"台北市","town":"大安區"}
  • print res.content
  • elem=lxml.etree.fromstring(res.content)
  • elem.xpath("//Address/text()")
  • for e in elem.xpath("//Address/text()"):
  •     print e
阿!忘了encode成UTF-8
最上面加一排 # conding=UTF-8
抓資料成功!!


留言

這個網誌中的熱門文章

[筆記] CRLF跟LF之區別 --- 隱形的 bug

[ML筆記] Batch Normalization

[筆記] 統計實習(1) SAS 基礎用法 (匯入資料並另存SAS新檔,SUBSTR,計算總和與平均,BMI)

[ML筆記] Ensemble - Bagging, Boosting & Stacking