2023京東商品列表爬取

不嘮閑嗑,直接來(lái)干的,需要從京東搜索關(guān)鍵詞然后將商品列表導(dǎo)出,看了一下市面上的解決方案一個(gè)解析接口返回的內(nèi)容,一個(gè)是通過(guò)selenium抓取頁(yè)面,兩套方案試了一下都不能滿足需求,前者頻繁請(qǐng)求會(huì)觸發(fā)風(fēng)控,后者解析頁(yè)面需要人工干預(yù),想了一下決定嘗試一下chrome插件的方式來(lái)獲取想要的內(nèi)容。
先大概整理一下思路:
設(shè)置關(guān)鍵詞--->觸發(fā)搜索--->滾動(dòng)頁(yè)面--->解析內(nèi)容--->數(shù)據(jù)過(guò)濾--->處理分頁(yè)
根據(jù)頁(yè)面元素確定輸入框和點(diǎn)擊按鈕的標(biāo)識(shí)將搜索功能搞定

//搜索
let search = (keyword) =>{
    $("#search-2014").find("#key").focus()
    $("#search-2014").find("#key").val(keyword)
    $("#search-2014").find(".form").find("button").click()
}

拿到結(jié)果后將頁(yè)面內(nèi)容進(jìn)行解析,頁(yè)面內(nèi)容解析有兩段,一個(gè)是列表內(nèi)容提取,一個(gè)是每條商品信息提取,由于京東的商品列表不會(huì)一次全部展示需要不斷的滾動(dòng)頁(yè)面才會(huì)進(jìn)行加載,所以需要做一下處理,

let scrollToBottom = async () =>{
    let page_height = document.body.scrollHeight

    let scroll_count = 15;
    let offset = 400; //page_height / scroll_count
    for(let i=0; i< scroll_count; i++){
        let timeOut = 2
        await sleep(timeOut)

        window.scrollBy(0, offset)
        console.log(`第${i}次滾動(dòng)`)
    }
    console.log("滾動(dòng)完成")
    parse_content()
}
//解析頁(yè)面內(nèi)容
let parse_content = async () =>{
    let keyword = $("#search-2014").find("#key").val()
    let items = $("#J_goodsList ul").children()
    await sleep(10)
    let list = []
    $.each(items, function(inx, it){
        let data = parse_item(it)
        if(data.goods_name.indexOf(keyword) != -1){
            //TODO將采集的信息發(fā)給后臺(tái)
        }
    })
    if(list.length > 0){
        post_data(list)
    }
}
//提取內(nèi)容
let parse_item = (it) =>{
    let is_ad = false

    let goods_id = $(it).data("sku")
    
    let pic_dom = $(it).find(".p-img").find("img")

    let pic_url = $(pic_dom).attr("src") || $(pic_dom).attr("data-lazy-img")

    let price = $(it).find(".p-price").text().trim().replace("¥","")

    let deal_num = 0 

    let goods_name = $(it).find(".p-name").text().trim()

    goods_name = goods_name.replace("拍拍", "")
    goods_name = goods_name.replace("廣告詞", "")
    goods_name = goods_name.trim()

    let goods_detail_url = "https:"+ $(it).find(".p-name a").attr("href")

    let shop_name = $(it).find(".p-shopnum").text().trim()

    let shop_link = "https:"+ $(it).find(".p-shopnum a").attr("href")

    let location = ""
    let keyword = $("#search-2014").find("#key").val()
    let data = {
        is_ad,
        pic_url,
        price,
        deal_num,
        goods_name,
        goods_detail_url,
        goods_id,
        shop_name,
        shop_link,
        location,
        keyword
    }
    return data
} 

由于返回的商品信息中不一定會(huì)存在我們想要的關(guān)鍵字,所以還需要對(duì)數(shù)據(jù)進(jìn)行一次處理,例如判斷一下標(biāo)題中是否存在關(guān)鍵字等,這里我只是簡(jiǎn)單處理一下

if(data.goods_name.indexOf(keyword) != -1){
            //TODO將采集的信息發(fā)給后臺(tái)
        }

最后就是處理分頁(yè)問(wèn)題了,由于京東的分頁(yè)參數(shù)加密比較簡(jiǎn)單就是采用的2*n-1這種模式,n為下一頁(yè)的頁(yè)數(shù)

//解析分頁(yè)
let parse_page = async () =>{
    await sleep(10)
    let page = parseInt(localStorage.getItem("page") || "0");
    if(page){
        page = page + 1
    }else{
        page = 1
    }
    console.log(`第${page}次執(zhí)行`)
    localStorage.setItem("page",page)
    //TODO 判斷爬前幾頁(yè)
    if(limit && page >limit){
        localStorage.removeItem("page")
        return
    }

    let current_page = parseInt($("#J_bottomPage").find(".curr").text().trim())
    let total_page = $("#J_bottomPage").find(".p-skip").text().trim()
    let regx = /(\d+)/
    let result = total_page.match(regx)
    total_page = parseInt(result[1])
    if (current_page < total_page) {
        let nextId = parseInt($("#J_bottomPage").find(".curr").next().text().trim())
        let url = location.href
        console.log("獲取下一頁(yè)", url)
        let page_regx = /\&s=(\d+)/
        let page_num = url.match(page_regx)
        if(page_num){
            page_num = page_num[1]
            url = url.replace(page_num, (nextId - 1) * 60 + 1)
            let _page_regx = /\&page=(\d+)/
            let _page_num = url.match(_page_regx)
            if(_page_num){
                _page_num = _page_num[1]
                url = url.replace(`&page=${_page_num}`, `&page=${(2 * nextId - 1)}`)
            }
            await sleep(30)
            console.log("下一頁(yè)地址",url)
            location.href = url
        }else{
           url = url + `&page=${(2*nextId - 1)}&s=${(nextId - 1) * 60 + 1}&click=0`
           await sleep(30)
           location.href = url
        }
    }else{
        //爬完了
        localStorage.removeItem("page")
    }
}

由于只是分析測(cè)試,所以代碼寫(xiě)的比較粗糙,大家將就著看吧,后續(xù)有時(shí)間整理成完整的工程代碼

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,572評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,071評(píng)論 3 414
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 175,409評(píng)論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,569評(píng)論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,360評(píng)論 6 404
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 54,895評(píng)論 1 321
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,979評(píng)論 3 440
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,123評(píng)論 0 286
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,643評(píng)論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,559評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,742評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,250評(píng)論 5 356
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 43,981評(píng)論 3 346
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,363評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,622評(píng)論 1 280
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,354評(píng)論 3 390
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,707評(píng)論 2 370

推薦閱讀更多精彩內(nèi)容