Scrapy進階-命令行的工作原理（以runspider為例）

官方教程說當你寫好自己的spiders如douban之后，你可以通過scrapy runspider/crawl douban啟動你的爬蟲。于是一開始的時候你就知道通過這個命令行來啟動爬蟲，但是你有沒有想過當你敲下這行命令后，scrapy到底做了什么呢？

命令入口：cmdline.py

當你運行 scrapy command arg 這樣的命令時,這里的 scrapy 實質是一個 python 腳本，它接受參數，首先調用 scrapy/cmdline.py 中的 execute() 函數.

execute() 函數在 scrapy 安裝目錄下的 cmdline.py 文件中.而cmdline.py定義以下幾個函數：

iter_command_classes(module_name) 
get_commands_from_module(module, inproject) 
get_commands_from_entry_points(inproject, group='scrapy.commands')
get_commands_dict(settings, inproject)
_pop_command_name(argv)
print_header(settings, inproject)
print_commands(settings, inproject)
print_unknown_command(settings, cmdname, inproject)
run_print_help(parser, func, *a, **kw)
_run_command(cmd, args, opts)
_run_command_profiled(cmd, args, opts)
execute(argv=None, settings=None)

這些函數顧名思義，不做太多介紹。其中最重要的是execute，為啥呢？

if __name__ == '__main__':
    execute()

因為上面代碼告訴我們只有它能自啟動，所以我們要詳盡的了解它，因此就要讀代碼了。

def execute(argv=None, settings=None):
# 獲取變量
    if argv is None:
        argv = sys.argv
# 獲取配置(settings)
    if settings is None:
        settings = get_project_settings()
    check_deprecated_settings(settings)

    inproject = inside_project() #判斷是否在項目中，因為可用命令不同
    cmds = _get_commands_dict(settings, inproject) #scrapy.commands中獲取命令集
    cmdname = _pop_command_name(argv) #獲取輸入的命令
    parser = optparse.OptionParser(formatter=optparse.TitledHelpFormatter(), \
        conflict_handler='resolve') #獲取附加選項
        # 根據輸入的指令提供不同的結果
    if not cmdname:
        _print_commands(settings, inproject)
        sys.exit(0)
    elif cmdname not in cmds:
        _print_unknown_command(settings, cmdname, inproject)
        sys.exit(2)
    # 下面幾行代碼針對輸入合適的指令如genspider crawl....
    # 解析命令行參數(cmds：為相應的Scrapy Command對象列表)
    cmd = cmds[cmdname]
    parser.usage = "scrapy %s %s" % (cmdname, cmd.syntax())
    parser.description = cmd.long_desc()
    settings.setdict(cmd.default_settings, priority='command')
    cmd.settings = settings
    cmd.add_options(parser)
    opts, args = parser.parse_args(args=argv[1:])
    _run_print_help(parser, cmd.process_options, args, opts)
    # 設定用于啟動爬取CrawlerProcess的配置
    cmd.crawler_process = CrawlerProcess(settings)
    _run_print_help(parser, _run_command, cmd, args, opts)
    sys.exit(cmd.exitcode)

作為整個程序的入口，其主要做的事情是解析用戶爬蟲的配置屬性，根據傳遞的命令行參數，調用對應的代碼來執行相應的任務.

scrapy command arg 中 command 可以為 crawl / startproject / genspider / runspider / deploy / …等命令,每一個命令在 scrapy/commands 文件夾下都有對應 command類.

對于 scrapy runsspider test ,就會調用 commands/runspider.py 中的方法去執行相應的爬蟲任務.

調度者：runspider.py

runspider.py定義了一個函數_import_file從我們的爬蟲中查找所有的依賴包，定義了一個Command類(繼承ScrapyCommand)。
Command中最重要的功能是run,他用spclasses = list(iter_spider_classes(module))判斷輸入的爬蟲是否存在。

    self.crawler_process.crawl(spidercls, **opts.spargs)
    self.crawler_process.start()

隨后用crawler_process(即實例化的CrawlerProcess）調用crawler.py的CrawlerProcess。crawler是Scrapy核心的API，所以需要仔細介紹。

核心API： crawler.py

事實上我們并不一定需要通過命令行的方式運行scrapy的爬蟲，完全可以通過API從腳本中運行Scrapy。CrawlerProcess可以為你自啟動一個Twisted反應子，配置logging信息、設置腳本關閉處理程序，
我們先來解讀self.crawler_process.crawl(spidercls, **opts.spargs)中的crawl。流程如下

crawler = self.create_crawler(crawler_or_spidercls)
create_crawler return self._create_crawler(crawler_or_spidercls)
_create_crawler return Crawler(spidercls, self.settings)spidercls = self.spider_loader.load(spidercls)
spider_loader = _get_spider_loader(settings)
.... 讀不下去了
CrawlerRunner.crawl return self._crawl(crawler, *args, **kwargs)
_crawl crawler.crawl(*args, **kwargs)

crawler.crawl
@defer.inlineCallbacks
def crawl(self, *args, **kwargs):
assert not self.crawling, "Crawling already taking place"
self.crawling = True

     try:
         self.spider = self._create_spider(*args, **kwargs)
         self.engine = self._create_engine()
         start_requests = iter(self.spider.start_requests())
         yield self.engine.open_spider(self.spider, start_requests)
         yield defer.maybeDeferred(self.engine.start)

本來我是打算一行一行講解代碼的，但是工作量太大，也很難表述清楚，我還是直接說明他的作用吧：
用指定的參數運行爬蟲，最后從spider.start_requests()開啟新的征途。

結論：
因此當我們執行scrapy runspider SpiderName的時候，Scrapy其實以以下順序直到啟動我們的爬蟲。
scrapy/cmdline.py -> scrapy/commands/runspider.py -> scrapy/crawler.py -> 從我們的爬蟲的start_requests開始下一步。

這個代碼讀的我好暈，但是至少我知道了start_requests是我們運行爬蟲的關鍵。

最后編輯于：2017.12.03 06:43:08

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,316評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,481評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 176,241評論 0贊 374
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,939評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,697評論 6贊 409
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,182評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,247評論 3贊 441
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,406評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,933評論 1贊 334
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,772評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,973評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,516評論 5贊 359
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,209評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,638評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,866評論 1贊 285
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,644評論 3贊 391
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,953評論 2贊 373

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Scrapy進階-命令行的工作原理（以runspider為例）

Scrapy進階-命令行的工作原理（以runspider為例）

命令入口：cmdline.py

調度者：runspider.py

核心API： crawler.py

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Scrapy進階-命令行的工作原理（以runspider為例）

命令入口：cmdline.py

調度者：runspider.py

核心API： crawler.py

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频