發表文章

目前顯示的是 5月, 2015的文章

Python 網路爬蟲 part 5 Cookie

圖片
先安裝Firefox的cookie manager 打開 Firefox -> 工具 -> Cookie Manager  可以看到這個瀏覽器有哪些cookie 以及每個cookie的使用期限 接著,來以ptt八卦版作為例子 這裡可以看到,要進八卦版之前都會被問滿18歲 這個結果會存在cookie! 首先按下我同意的時候可以看到右邊跳出很多東西 點擊 Resources -> Cookies 可以看到當中有個 over18的cookie 裡面的值: 1 在點擊 Network -> index.html 出現的資訊當中也可以看到~ Request Cookies 裡面有Name: over18,  Value: 1 所以python code可以這樣寫: 執行結果:

Python 網路爬蟲 part 4 selenium

圖片
模擬操作瀏覽器 去練習打字的網站  http://10fastfingers.com/typing-test/english 自動幫我打字進去 首先要先看他的輸入跟題目的標籤分別在哪裡 這裡可以看出來每個題目標籤的class = "highlight" 使用者輸入的標籤:id = "inputfield" 於是code可以這樣寫 # coding=UTF-8 # 沒有 selenium 的話先安裝 # sudo pip install selenium from selenium import   webdriver # webdriver 可以用來模擬瀏覽器做動作 # 使用 Firefox開啟 browser = webdriver . Firefox ( ) browser . get ( " http://10fastfingers.com/typing-test/english " ) # 這是個打字練習網站 # 我們來利用selenium來模擬打字的情形 text = browser . find_element_by_class_name ( "highlight" ) print text elem = browser . find_element_by_id ( "inputstream" ) # elem.send_keys(text_to_key) # 輸入單字 # elem.send_keys(" ") # 輸入空白鍵 # 來輸入250個字 for i in range ( 250 ) :         text_to_key = browser . find_element_by_class_name ( "highlight" )         print text_to...

Python 網路爬蟲 part 3 抓FB資料

圖片
Python 網路爬蟲 part 3 FB 去 developers.facebook.com Tools & Support  選 Graph API Get Access token 因為是測試就把它全勾吧 接著來玩一下這個console 這個可以拿到我自己的ID 但是要如何拿別人的ID呢? 去這個網站 http://lookup-id.com/ 把人家的FB網址貼過去就可以拿到 貼來玩玩 不過其實如果我自己要看自己的話 直接使用 me 就可以 要看我的朋友列表的話 看貼文 發文 首先要使用post方法 add a field 輸入 message 以及要發文的內容 按下 submit 拿到朋友or粉絲專頁PO文的ID 首先先去蘋果的粉絲專頁隨便一個貼文按個讚 回自己的頁面查看活動紀錄 點選連結 (或是貼文) 就會在後面看到該貼文的 ID 去玩玩 這邊還可以看到蘋果日報的ID 取得蘋果日報專業上面的所有po文 id/posts 使用python抓抓看 成功! 自動幫貼文按讚