前言
作為小白的我而言,對于各種網絡數據抓取也不少了,但是在抓取過程之中坑點也不少的,這里就分享一下對于需要登陸的網頁的處理,我們整體思路是這樣的,我們通過對該網站的登錄之后拿到該網站的Cookie,然后拿著獲取到的Cookie再去我們想要爬取的地址進行數據爬取.
Selenium簡介
Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。
而我用到的HtmlUnitDriver是Selenium眾多工具中一個基于HtmlUnit的無界面實現,即使用HtmlUnit時并不會打開真實的瀏覽器,而是在內存中執行代碼,因此運行速度很快,但是對JavaScript的支持不夠好,當頁面上有復雜的JavaScript元素時,經常捕捉不到。
當我們需要Selenium的時候,我們可以添加Maven依賴.如下所示.
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>3.4.0</version>
</dependency>
HtmlUnitDriver的鼠標和鍵盤事件
我們平常在普通一個網站登錄的時候都會使用到我們的鍵盤和鼠標來進行一系列的用戶交互操作.那么我們在HtmlUnitDriver該如何實現鍵盤的輸入和鼠標的點擊呢?在其實現的接口類WebDeriver中有一個專門的類來負責實現這些測試場景,那就是 Actions 類,在使用該類的過程中會配合使用到 Keys 枚舉以及 Mouse、 Keyboard、CompositeAction 等類。下面我就分別簡單介紹鼠標事件和鍵盤事件的實現.
鼠標事件
- 鼠標左鍵點擊
Actions action = new Actions(driver);
action.click();// 鼠標左鍵在當前停留的位置做單擊操作
action.click(driver.findElement(By.name(element)))// 鼠標左鍵點擊指定的元素
- 鼠標右鍵點擊
Actions action = new Actions(driver);
action.contextClick();// 鼠標右鍵在當前停留的位置做單擊操作
action.contextClick(driver.findElement(By.name(element)))// 鼠標右鍵點擊指定的元素
- 鼠標雙擊操作
Actions action = new Actions(driver);
action.doubleClick();// 鼠標在當前停留的位置做雙擊操作
action.doubleClick(driver.findElement(By.name(element)))// 鼠標雙擊指定的元素
- 鼠標拖拽動作
Actions action = new Actions(driver);
// 鼠標拖拽動作,將 source 元素拖放到 target 元素的位置。
action.dragAndDrop(source,target);
// 鼠標拖拽動作,將 source 元素拖放到 (xOffset, yOffset) 位置,其中 xOffset 為橫坐標,yOffset 為縱坐標。
action.dragAndDrop(source,xOffset,yOffset);
- 釋放鼠標
Actions action = new Actions(driver);
action.release();// 釋放鼠標
鍵盤事件
對于鍵盤的模擬操作,Actions 類中有提供 keyUp(theKey)、keyDown(theKey)、sendKeys(keysToSend) 等方法來實現。鍵盤的操作有普通鍵盤和修飾鍵盤(Modifier Keys, 下面的章節將講到修飾鍵的概念)兩種 :
- 普通鍵盤模擬 sendKeys(keysToSend)
Actions action = new Actions(driver);
action.sendKeys(Keys.TAB);// 模擬按下并釋放 TAB 鍵
action.sendKeys(Keys.SPACE);// 模擬按下并釋放空格鍵
/***
針對某個元素發出某個鍵盤的按鍵操作,或者是輸入操作,
比如在 input 框中輸入某個字符也可以使用這個方法。這個方法也可以拆分成:
action.click(element).sendKeys(keysToSend)。
*/
action.sendKeys(element,keysToSend);
- 對于修飾鍵(Modifier keys),一般都是跟普通鍵組合使用的。比如 Ctrl+a、Alt+F4、 Shift+Ctrl+F 等等。
Actions action = new Actions(driver);
action.keyDown(Keys.CONTROL);// 按下 Ctrl 鍵
action.keyDown(Keys.SHIFT);// 按下 Shift 鍵
action.keyDown(Key.ALT);// 按下 Alt 鍵
action.keyUp(Keys.CONTROL);// 釋放 Ctrl 鍵
action.keyUp(Keys.SHIFT);// 釋放 Shift 鍵
action.keyUp(Keys.ALT);// 釋放 Alt 鍵
示例:通過 Alt+F4 來關閉當前的活動窗口,可以通過下面語句來實現.
action.keyDown(Keys.ALT).keyDown(Keys.F4).keyUp(Keys.ALT).perform();`
使用 HtmlUnitDriver 模擬登錄微博賬號(基于Selenium:3.4.0實現)
上面我們對HtmlUnitDriver的使用有了初步的了解,下面我們就要模擬登錄微博賬號.由于數據抓取是通過www.weibo.cn而不是www.weibo.com.所以我們要通過https://passport.weibo.cn/signin/login這個登錄地址來登錄.我們首先要打開這個網站地址,分析這個網站有什么是我們需要.網站上的元素很少.我們需要賬號輸入框、密碼輸入框和登錄按鈕的點擊事件.
然后我們通過控制臺來獲取這個三個元素.如下所示.(因為我先前登陸過,所以Cookie里面會有我的信息)
好了,準備工作已經做完了,那么接下來我們就需要搞我們的代碼了.代碼比較簡單,這里就不過多解釋了.
//初始化一個HtmlUnitDriver對象
HtmlUnitDriver driver = new HtmlUnitDriver(BrowserVersion.FIREFOX_52);
driver.setJavascriptEnabled(true);//允許JS操作
driver.get("https://passport.weibo.cn/signin/login");
driver.executeScript("document.getElementById('loginWrapper').style.display = 'block'");//隱藏新浪微博登錄的驗證碼
//找到賬號輸入框,輸入用戶賬號
WebElement mobile = driver.findElementByCssSelector("input#loginName");
mobile.sendKeys(username);
//找到密碼輸入框,輸入用戶密碼
WebElement pass = driver.findElementByCssSelector("input#loginPassword");
pass.sendKeys(password);
//輸入完成之后,點擊登錄按鈕
WebElement submit = driver.findElementByCssSelector("a#loginAction");
submit.click();
driver.close();//關閉瀏覽器
那么我們該如何拿到Cookie字符串呢?這里登錄完成之后,HtmlUnitDriver就存儲了Cookie信息,我們直接拿出來就行,代碼如下所示.
Set<Cookie> cookieSet = driver.manage().getCookies();
StringBuilder sb = new StringBuilder();
for (Cookie cookie : cookieSet) {
sb.append(cookie.getName() + "=" + cookie.getValue() + ";");
}
String result = sb.toString();//拼接好的Cookie信息
整體代碼如下所示.
public static String getSinaCookie(String username, String password) throws Exception {
//初始化一個HtmlUnitDriver對象
HtmlUnitDriver driver = new HtmlUnitDriver(BrowserVersion.FIREFOX_52);
driver.setJavascriptEnabled(true);//允許JS操作
driver.get("https://passport.weibo.cn/signin/login");
driver.executeScript("document.getElementById('loginWrapper').style.display = 'block'");//隱藏新浪微博登錄的驗證碼
//找到賬號輸入框,輸入用戶賬號
WebElement mobile = driver.findElementByCssSelector("input#loginName");
mobile.sendKeys(username);
//找到密碼輸入框,輸入用戶密碼
WebElement pass = driver.findElementByCssSelector("input#loginPassword");
pass.sendKeys(password);
//輸入完成之后,點擊登錄按鈕
WebElement submit = driver.findElementByCssSelector("a#loginAction");
submit.click();
String result = concatCookie(driver);
System.out.println("Get Cookie: " + result);
driver.close();//關閉瀏覽器
if (result.contains("SUB")) {
return result;
} else {
throw new Exception("weibo login failed");
}
}
public static String concatCookie(HtmlUnitDriver driver) {
Set<Cookie> cookieSet = driver.manage().getCookies();
StringBuilder sb = new StringBuilder();
for (Cookie cookie : cookieSet) {
sb.append(cookie.getName() + "=" + cookie.getValue() + ";");
}
String result = sb.toString();
return result;
}
通過控制臺的打印,我們就能獲得我們所需要的Cookie字符串了.如下所示.
總結
這篇博客寫到這就到了尾聲了,有一點要注意,那就是使用HtmlUnitDriver時候,可能會鏈接失敗,現在未找到原因,希望有知道的大佬能提點下.文章很多點都可能模糊不清,所以如果有錯誤,歡迎指導批評,非常感謝各位大佬.
本文參考文章:
Selenium WebDriver 中鼠標和鍵盤事件分析及擴展
Java開源爬蟲框架WebCollector教程——爬取新浪微博