網絡資訊擷取神器 – 爬蟲程式 (PYTHON SELENIUM)

by 核心引擎 | 一月 26, 2021 | PYTHON 網頁資料擷取

我們在舉辦【Python 大數據培訓課程】時，發現很多學員對 Selenium 有以下問題，在此解釋一下：

內容目錄

網絡爬蟲是什麼？

我們每天花很多時間在網絡，例如投資股票的朋友每天不時上網留意股價，廣告界的朋友經常在社交媒體、論壇等地方收集最新資訊，房地產的朋友則經常留意各區物業買賣價等。不論目的為何，大家做的其實都是不斷重複三個步驟 ─「打開網頁」、「前往目標版面」、「記錄資料」。其實只要你懂寫簡單的電腦程式，便可把這些重複動作交給電腦自動去做，電腦可以 24×7 無間斷地，每隔一個指定的時間 (例如每隔 5 分鐘)，自動地去做記錄資料的工作。你更可以指示電腦自動分析這些資料，並自動執行某個行動 (例如股價波動到某個位時自動進行交易)。

Selenium 原理是什麼？

Selenium 是利用自動化控制你的瀏覽器，前往網站，模擬人手點擊鍵盤滑鼠下載資料的，就像網絡版的按鍵精靈。這個方法雖然簡單原始，但卻是最通用而有效的方案，99% 以上的網站都可以下載到。

原因是，瀏覽器是必定可以運行所有 Javascript、frame 的 (不然你平日怎樣上網?)。其次，無論網站採取那種技術去阻擋爬蟲程式，它的設計是一定要讓正常用戶通過 (不然這個網站就無人去到了…)。而正常用戶是通過瀏覽器觀看網站的，而且他們是用鍵盤和滑鼠操作網站的。

Selenium 正是基於瀏覽器，並且會模擬鍵盤和滑鼠操作網站，只要目標頁面你平日能夠用瀏覽器入到，那 Selenium 都會入到的，因此幾乎所有網站都可以用 Selenium 爬的。

網絡爬蟲是否犯法？

Python Selenium 並不是 black magic，它無法神奇地取得對方的機密資料。它的原理只是自動化控制你的瀏覽器，前往網站，模擬人手點擊鍵盤滑鼠，copy-and-paste 取得資料。因此所取得的網站內容其實都是對方已經公開在網站上的，用人手都能拿到，所以並不犯法的。要注意的是如果你把程式速度設定過快，網站可能會認為你在惡意攻擊而把你封鎖 IP。因此我們會教你在程式加入適量延時，減慢程式速度以避免這點。

我曾試過用某個工具把網站的 HTML 下載，但裡面無我要的資料！？

這是因為該網站內容是動態地以 Javascript 呈現出來、又或是用 frame 包住的，因此雖然你在瀏覽器上看到，但你下載回來的HTML檔卻不會含有資料，這是網站阻擋爬蟲程式的常見做法。你一般會在這些網站源碼中看到 frame、iframe、document.write、ajax、XMLHttpRequest 等語句。要解決這個問題，你的爬蟲程式不能是單純的 HTML 下載器，而是要能夠運行 Javascript 和 frame 的程式，Selenium 正是解決這個問題的好方法。

Selenium、Beautiful soup、Scrapy 有什麼不同？

除了 Selenium 外，常見的爬蟲庫還有 Beautiful soup、Scrapy。但它們無法運行 Javascript 和frame，只能把網站的HTML源碼下載 (嚴格來說 Beautiful soup 只是 HTML 解析器，下載還需搭配urllib、requests 等工具庫)。因此很多動態生成資料的網站它們都無法下載。你可能會問，那為什麼這些庫還會存在？那是因為它們的設計目的不是讓你下載網站資料，而只是要快速取得網站內每個頁面所有的超連結 (a)，分析網站頁面之間的關係 (好像 Google, Yahoo 等搜尋引擎)。這些庫不運行Javascript，大大提升了它們的速度，它們1秒內下載數十個頁面都不是難事 (但實際應用時還是要限速以避免封 IP)。

而 Selenium 的設計初衷則是讓網站開發人員為網站自動化除錯用的 (相信你曾經遇到過某些網站上的按鈕被廣告蓋住，無法點擊吧。那就是因為開發人員偷懶，無進行測試的結果！)，小型網站只有數十個頁面，開發人員手動到訪每個頁面測試就可以了。但有數千個頁面的大型網站就必須要用 Selenium 自動測試所有頁面了。由於 Selenium 站在使用者角度測試網站，因此它必須模仿使用者瀏覽頁面時的行為，例如鍵盤輸入文字、滑鼠點擊、上下滑動頁面等。這個設計優點是能夠取得所有真實呈現在畫面的資料，絕大多數網站都能用，但缺點是速度較慢，1秒可能只能下載1頁。

Selenium 有無法下載的網站嗎？

只要是瀏覽器入到的網站，Selenium 都能入到，但網站的設計者還是可以透過一些技巧令你入到、看到，但下載不到資料。

首先是文字被嵌入在圖片中，這個情況下 Selenium 只能下載到圖片，但要讀取圖片中的文字(如下圖兩張圖片)則要用圖像文字識別 OCR (Optical Character Recognition) 技術才能讀到，大大增加讀取難度。

Charts 300x200 1 — 以上文字和走勢線是圖片畫出來的，程式需要加上 OCR (Optical Character Recognition) 才「可能」讀到。

然後是隨機出現的問答問題。除非你事先已為所有可能會出現的問題設定答案，否則Selenium基本上不可能自動答到的。

除了以上兩種情況外，還有一些很奇特的方法令你看到但很難下載到資料的，但它們實行的成本都很高，也會影響到正常用戶訪問頁面的體驗，可謂殺敵八百自損三千，因此資料性的網站一般都不會特地用這些方法保護 (總不成要使用者每看一篇新聞都要答一次問題吧！) 因此只有一些非常大型、非資料性的網站才會使用。另外，即使網站用了問答或圖片驗証碼，只要出現頻率不高，Selenium 還是能夠下載到的，請見下文。

Selenium 對於有隨機問答、圖片驗証碼，或要登入的網站能否下載？

只要出現頻率不高，是可以的。雖然上面提及到 Selenium 很難自動完成問答，或讀到驗証碼內的文字，但你是可以做到先讓程式暫停在頁面，你手動輸入答案或驗証碼，再讓程式繼續運行的。因此大部份需要驗証碼登入的網站，你只需一開始手動輸入一次驗証碼，然後 Selenium 也是可以下載的。

Python、R、Selenium 有什麼不同？

Python、R 是程式語言，而 Selenium 則是工具庫，Python 和 R 都可以用 Selenium 這套工具庫的。那應該學 Python 還是 R？這取決於你的目的。R 是為數據分析、統計學而設計的，用途偏向在已有數據上做分析，例如計算平均值、均方差、統計模型等。Python 則是程式快速原型和工程系統整合而設計的，使用範圍比較廣闊，例如圖像處理、訊號分析、電腦視覺、機械人等。Python 初學者較易掌握，行業用途也較廣。如果你未有特定的行業應用，建議你學 Python。如果你專注數據分析行業，那就應該學習 R，當然 2 種都學就最好吧！

富途 Open API 介紹 - 秒級高頻數據、程式交易 (PYTHON 接駁) →

課程列表

服務/活動

Python vs Excel 比較: 那個更好?

Python vs Excel 比較: 那個更好? 2017年，據估計全球有7.5億人使用Excel。2017年世界人口約為76億。這意味著大約10%的人口正在使用Excel，我猜主要用於數據分析。這太瘋狂了。毫無疑問，Excel對於公司來說是一個非常重要的工具，並且仍然在每個數據分析師和科學家的工具包中佔有一席之地，但是對於大多數工作，您需要停止使用Excel並升級到Python。我來告訴你為什麼。...

Python VS vba 比較: 那個更好?

Python VS vba 比較: 那個更好？每當我們談論數據分析時，Excel 和 VBA 都是普通人想到的第一個工具。然而，隨著機器學習和人工智慧的興起，Python在過去幾年中一直在快速增長。作為數據分析師，比較這兩種語言並瞭解哪一種語言更適合數據分析至關重要。 Python 在數據分析方面比 VBA 更好，因為它更強大。使用 Python 進行數據分析還可以提供更好的版本控制。VBA 僅適用於簡單的Excel自動化，因為它是為此而構建的。如果你想做任何更複雜的事情，你最好使用 Python。儘管 Python...

Python 可以做到什麼工具？富途API 接駁、數據擷取、WhatsApp 自動化批量發送、辦公室自動化

現在Python 越來越流行，很多人都很好奇 Python可以做些什麼。小編現在為你講解及演示一些我們我何可以透過 Python 去完成的日常工作程式吧！Python 接駁富途 OPEN API現在買賣股票、期權，可以透過證券商的 API 進行高頻數據擷取，甚至做到模擬交易、自動化下單等，以下是一些示範影片：WhatsApp 自動化發送工具市面上有一些公司提供 WhatsApp 訊息發送服務，主要分成兩大類：1. 透過 WhatsApp Business API 接駁的公司 2. 透過 web 版本的 WhatsApp...