Scrapy-redis的源碼解析

一、先來回顧一下這個問題：

原生的Scrapy框架為什么做不了分布式？
　　1. Scrapy分布式爬蟲意味著幾臺機器通過某種方式共同執行一套爬取任務，這就首先要求每臺機器都要有Scrapy框架，一套Scrapy框架就有一套Scrapy五大核心組件，引擎--調度器--下載器--爬蟲--項目管道，各自獨有的調度器沒有辦法實現任務的共享，所以不能實現分布式爬取。
　　2. 假設可以實現Scrapy框架的調度器共享，那么就能實現分布式爬取了嗎？答案是不能，因為我們實現了任務的共享，但是框架之間的項目管道是單獨的，我們的任務下載完之后，我們爬取的有效信息還是不能全部存放在某個指定的位置，所以要想實現分布式爬蟲，需要同時滿足調度器和項目管道的共享才可以達到分布式的效果。

二、Scrapy-redis的源碼解析

Scrapy-redis的官方文檔寫的比較簡潔，沒有提及其運行原理，所以如果想全面的理解分布式爬蟲的運行原理，還是得看scrapy-redis的源代碼才行，不過scrapy-redis的源代碼很少，也比較好懂，很快就能看完。

Scrapy-redis的源碼大致分為以下py文件：

connection.py + spider.py

spider.py文件是分布式爬蟲的入口代碼：
　　1、通過connection接口，spider初始化時，通過setup_redis()函數初始化好和redis的連接。
　　2、通過next_requests函數從redis中取出strat url，spider使用少量的start url + LinkExtractor，可以發展出很多新的url，這些url會進入scheduler進行判重和調度。直到spider跑到調度池內沒有url的時候，會觸發spider_idle信號，從而觸發spider的next_requests函數。
　　3、再次從redis的start url池中讀取一些url。

connection.py
---------------------

import six
from scrapy.utils.misc import load_object
from . import defaults

# 快速映射settings配置文件中redis的基礎配置字典
SETTINGS_PARAMS_MAP = {
    'REDIS_URL': 'url',
    'REDIS_HOST': 'host',
    'REDIS_PORT': 'port',
    'REDIS_ENCODING': 'encoding',
}

# 根據scrapy中settings配置文件信息返回一個redis客戶端實例對象
def get_redis_from_settings(settings):
    params = defaults.REDIS_PARAMS.copy()
    params.update(settings.getdict('REDIS_PARAMS'))
    for source, dest in SETTINGS_PARAMS_MAP.items():
        val = settings.get(source)
        if val:
            params[dest] = val

    if isinstance(params.get('redis_cls'), six.string_types):
        params['redis_cls'] = load_object(params['redis_cls'])

    return get_redis(**params)

# 返回一個redis的Strictredis實例對象
def get_redis(**kwargs):

    redis_cls = kwargs.pop('redis_cls', defaults.REDIS_CLS)
    url = kwargs.pop('url', None)
    if url:
        return redis_cls.from_url(url, **kwargs)
    else:
        return redis_cls(**kwargs)

spider.py
------------------

from scrapy import signals
from scrapy.exceptions import DontCloseSpider
from scrapy.spiders import Spider, CrawlSpider
from . import connection, defaults
from .utils import bytes_to_str


# 實現從redis的隊列中讀取url
class RedisMixin(object):
    """Mixin class to implement reading urls from a redis queue."""
    redis_key = None
    redis_batch_size = None
    redis_encoding = None

    # Redis client placeholder.
    server = None

    def start_requests(self):
        """Returns a batch of start requests from redis."""
        return self.next_requests()
    # 鏈接redis
    def setup_redis(self, crawler=None):
        """Setup redis connection and idle signal."""
        pass

        self.logger.info("Reading start URLs from redis key '%(redis_key)s' "
                         "(batch size: %(redis_batch_size)s, encoding: %(redis_encoding)s",
                         self.__dict__)

        self.server = connection.from_settings(crawler.settings)
        crawler.signals.connect(self.spider_idle, signal=signals.spider_idle)

    # 這個方法 的作用就是從redis中獲取start_url
    def next_requests(self):
        """Returns a request to be scheduled or none."""
        use_set = self.settings.getbool('REDIS_START_URLS_AS_SET', defaults.START_URLS_AS_SET)
        fetch_one = self.server.spop if use_set else self.server.lpop
        # XXX: Do we need to use a timeout here?
        found = 0
        # TODO: Use redis pipeline execution.
        while found < self.redis_batch_size:
            data = fetch_one(self.redis_key)
            if not data:
                # Queue empty.
                break
            req = self.make_request_from_data(data)
            if req:
                yield req
                found += 1
            else:
                self.logger.debug("Request not made from data: %r", data)

        if found:
            self.logger.debug("Read %s requests from '%s'", found, self.redis_key)

    def make_request_from_data(self, data):
        """Returns a Request instance from data coming from Redis."""
        url = bytes_to_str(data, self.redis_encoding)
        return self.make_requests_from_url(url)

    def schedule_next_requests(self):
        """Schedules a request if available"""
        # TODO: While there is capacity, schedule a batch of redis requests.
        for req in self.next_requests():
            self.crawler.engine.crawl(req, spider=self)

    def spider_idle(self):
        """Schedules a request if available, otherwise waits."""
        # XXX: Handle a sentinel to close the spider.
        self.schedule_next_requests()
        raise DontCloseSpider


class RedisSpider(RedisMixin, Spider):
    """Spider that reads urls from redis queue when idle"""

    @classmethod
    def from_crawler(self, crawler, *args, **kwargs):
        obj = super(RedisSpider, self).from_crawler(crawler, *args, **kwargs)
        obj.setup_redis(crawler)
        return obj


class RedisCrawlSpider(RedisMixin, CrawlSpider):
    """Spider that reads urls from redis queue when idle."""

    @classmethod
    def from_crawler(self, crawler, *args, **kwargs):
        obj = super(RedisCrawlSpider, self).from_crawler(crawler, *args, **kwargs)
        obj.setup_redis(crawler)
        return obj

scheduler.py

這個文件重寫了scheduler類，用來代替scrapy.core.scheduler的原有調度器。實現原理是使用指定的一個redis內存作為數據存儲的媒介，以達到各個爬蟲之間的統一調度。
　　1、scheduler負責調度各個spider的request請求，scheduler初始化時，通過settings文件讀取queue和dupefilters（url去重）的類型，配置queue和dupefilters使用的key（一般就是spider name加上queue或者dupefilters，這樣對于同一種spider的不同實例，就會使用相同的數據塊了）。
　　2、每當一個request要被調度時，enqueue_request被調用，scheduler使用dupefilters來判斷這個url是否重復，如果不重復，就添加到queue的容器中（三種隊列方式：先進先出，先進后出和優先級都可以，可以在settings中配置）。
　　3、當調度完成時，next_request被調用，scheduler就通過queue容器的接口，取出一個request，把他發送給相應的spider，讓spider進行爬取工作。

import importlib
import six
from scrapy.utils.misc import load_object
from . import connection, defaults

class Scheduler(object):
    def __init__(self, server,
         pass

    @classmethod
    def from_settings(cls, settings):
        kwargs = {
            'persist': settings.getbool('SCHEDULER_PERSIST'),
            'flush_on_start': settings.getbool('SCHEDULER_FLUSH_ON_START'),
            'idle_before_close': settings.getint('SCHEDULER_IDLE_BEFORE_CLOSE'),
        }

        optional = {
            pass
        }
        for name, setting_name in optional.items():
            val = settings.get(setting_name)
            if val:
                kwargs[name] = val

        if isinstance(kwargs.get('serializer'), six.string_types):
            kwargs['serializer'] = importlib.import_module(kwargs['serializer'])

        server = connection.from_settings(settings)
        server.ping()

        return cls(server=server, **kwargs)

    @classmethod
    def from_crawler(cls, crawler):
        instance = cls.from_settings(crawler.settings)
        instance.stats = crawler.stats
        return instance

    def open(self, spider):
        self.spider = spider
        pass

    def close(self, reason):
        if not self.persist:
            self.flush()

    def flush(self):
        self.df.clear()
        self.queue.clear()

    def next_request(self):
        block_pop_timeout = self.idle_before_close
        request = self.queue.pop(block_pop_timeout)
        if request and self.stats:
            self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
        return request

    def has_pending_requests(self):
        return len(self) > 0

dupefilter.py

分布式爬蟲url去重原理：
　　通過分析可以知道self.server為redis實例，使用一個key來向redis的一個set中插入fingerprint（這個key對于同一個spider是相同的，redis是一個key-value的數據庫，如果key是相同的，訪問到的值就是相同的，默認使用spider名字 + fingerpoint的key就是為了區分在不同主機上的不同spider實例，只要數據是同一個spider，就會訪問到redis中的同一個spider-set而這個set就是url的判重池）。

import logging
import time
from scrapy.dupefilters import BaseDupeFilter
from scrapy.utils.request import request_fingerprint
from . import defaults
from .connection import get_redis_from_settings
logger = logging.getLogger(__name__)

# 對請求做去重處理，可以被分布式下不同的schedule調用
class RFPDupeFilter(BaseDupeFilter):
    logger = logger

    def __init__(self, server, key, debug=False):
        self.server = server
        self.key = key
        self.debug = debug
        self.logdupes = True


    # 通過settings配置文件信息返回一個redis示例對象
    @classmethod
    def from_settings(cls, settings):
        server = get_redis_from_settings(settings)
        key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}
        debug = settings.getbool('DUPEFILTER_DEBUG')
        return cls(server, key=key, debug=debug)

    @classmethod
    def from_crawler(cls, crawler):
        return cls.from_settings(crawler.settings)

    def request_seen(self, request):
        fp = self.request_fingerprint(request)
        added = self.server.sadd(self.key, fp)
        return added == 0

    # 這個方法是用來調用request_fingerprint接口的，這個接口通過sha1算法來判斷兩個url請
    #求地址是否相同（注意，這里面不完全是我們之前理解的hash了，如果兩個url的地址相同，請求方式和參數都相同，
    #但是請求參數的前后順序不同的話也別判定為同一個url地址，）從而達到url的去重功能。
    def request_fingerprint(self, request):
        return request_fingerprint(request)

    # Scrapy's scheduler調用，刪除數據，關閉連接
    def close(self, reason=''):
        self.clear()

    # 清空操作記錄數據
    def clear(self):
        """Clears fingerprints data."""
        self.server.delete(self.key)

    # 請求日志信息
    def log(self, request, spider):
        pass

request.py

request_fingerprint接口：
通過request_fingerprint接口，通過sha1算法來判斷兩個url請求地址是否相同（注意，這里面不完全是我們之前理解的hash了，如果兩個url的地址相同，請求方式和參數都相同，但是請求參數的前后順序不同的話也別判定為同一個url地址
http://www.example.com/query?id=111&cat=222
http://www.example.com/query?cat=222&id=111）從而達到url的去重功能。

"""This module provides some useful functions for working with scrapy.http.Request objects"""
from __future__ import print_function
import hashlib
import weakref
from six.moves.urllib.parse import urlunparse
from w3lib.http import basic_auth_header
from scrapy.utils.python import to_bytes, to_native_str
from w3lib.url import canonicalize_url
from scrapy.utils.httpobj import urlparse_cached

_fingerprint_cache = weakref.WeakKeyDictionary()
def request_fingerprint(request, include_headers=None):
    """Return the request fingerprint"""
    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    if include_headers not in cache:
        fp = hashlib.sha1()
        fp.update(to_bytes(request.method))
        fp.update(to_bytes(canonicalize_url(request.url)))
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[include_headers] = fp.hexdigest()
    return cache[include_headers]

queue.py

這是個隊列類，它會作為scheduler調度request的容器來維護一個秩序：
　　1、 scheduler在每個主機上都會實例化一個，并且和spider一一對應，所以分布式運行時會有一個spider的多個實例和一個scheduler的多個實例存在于不同的主機上。
　　2、因為scheduler都是用相同的容器，而這些容器都連接同一個 redis服務器，又都使用spider名 + queue來作為key 讀寫數據，所以不同主機上的不同爬蟲實例公用一個request調度池，實現了分布式爬蟲之間的統一調度。

from scrapy.utils.reqser import request_to_dict, request_from_dict
from . import picklecompat

# 隊列基類
class Base(object):
    def __init__(self, server, spider, key, serializer=None):
          pass
        self.server = server
        self.spider = spider
        self.key = key % {'spider': spider.name}
        self.serializer = serializer

    def _encode_request(self, request):
        """Encode a request object"""
        obj = request_to_dict(request, self.spider)
        return self.serializer.dumps(obj)

    def _decode_request(self, encoded_request):
        """Decode an request previously encoded"""
        obj = self.serializer.loads(encoded_request)
        return request_from_dict(obj, self.spider)

    def push(self, request):
        """Push a request"""
        raise NotImplementedError

    def pop(self, timeout=0):
        """Pop a request"""
        raise NotImplementedError

    def clear(self):
        """Clear queue/stack"""
        self.server.delete(self.key)

#隊列----先進先出
class FifoQueue(Base):
    """Per-spider FIFO queue"""

    def __len__(self):
        """Return the length of the queue"""
        return self.server.llen(self.key)

    def push(self, request):
        # request 進棧，進棧前對request做處理，request請求先被scrapy的接口request_to_dict
        #變成了一個dict對象（因為request對象實在#是比較復雜，有方法有屬性不好串行化），
        #之后使用picklecompat中的serializer串行化為字符串，然后使用一個特定的key存入redis中
        #（該key在同一種spider中是相同的）
        self.server.lpush(self.key, self._encode_request(request))

    def pop(self, timeout=0):
        # request出棧，其實就是從redis用那個特定的key去讀其值（一個list），
        #從list中讀取最早進去的那個，于是就先進先出了.
        if timeout > 0:
            data = self.server.brpop(self.key, timeout)
            if isinstance(data, tuple):
                data = data[1]
        else:
            data = self.server.rpop(self.key)
        if data:
            return self._decode_request(data)

# 優先級隊列
class PriorityQueue(Base):
    pass
# 棧----后進先出
class LifoQueue(Base):
    pass

SpiderQueue = FifoQueue
SpiderStack = LifoQueue
SpiderPriorityQueue = PriorityQueue

picklecompat.py

這里實現了loads和dumps兩個函數，其實就是實現了一個serializer：
　　1、因為redis數據庫不能存儲復雜對象（value部分只能是字符串，字符串列表，字符串集合和hash，key部分只能是字符串），所以我們存啥都要先串行化成文本才行。這里使用的就是python的pickle模塊，一個兼容py2和py3的串行化工具。

"""A pickle wrapper module with protocol=-1 by default."""
try:
    import cPickle as pickle  # PY2
except ImportError:
    import pickle

def loads(s):
    return pickle.loads(s)

def dumps(obj):
    return pickle.dumps(obj, protocol=-1)

pipelines.py

pipelines.py中類的作用：
　　pipeline.py文件用來實現數據分布式處理。它通過從settings中拿到我們配置的REDIS_ITEMS_KEY作為key，把item串行化之后存入redis數據庫對應的value中（這個value可以看出是個list，我們的每個item是這個list中的一個結點），這個pipeline把提取出的item存起來，主要是為了方便我們延后處理數據。

from scrapy.utils.misc import load_object
from scrapy.utils.serialize import ScrapyJSONEncoder
from twisted.internet.threads import deferToThread
from . import connection, defaults

default_serialize = ScrapyJSONEncoder().encode
class RedisPipeline(object):

    def __init__(self, server,
                 key=defaults.PIPELINE_KEY,
                 serialize_func=default_serialize):
        self.server = server
        self.key = key
        self.serialize = serialize_func

    @classmethod
    def from_settings(cls, settings):
        params = {
            'server': connection.from_settings(settings),
        }
        if settings.get('REDIS_ITEMS_KEY'):
            params['key'] = settings['REDIS_ITEMS_KEY']
        if settings.get('REDIS_ITEMS_SERIALIZER'):
            params['serialize_func'] = load_object(
                settings['REDIS_ITEMS_SERIALIZER']
            )
        return cls(**params)

    @classmethod
    def from_crawler(cls, crawler):
        return cls.from_settings(crawler.settings)

    def process_item(self, item, spider):
        return deferToThread(self._process_item, item, spider)

    def _process_item(self, item, spider):
        key = self.item_key(item, spider)
        data = self.serialize(item)
        self.server.rpush(key, data)
        return item

    def item_key(self, item, spider):
        return self.key % {'spider': spider.name}

最后總結一下scrapy-redis的總體思路：這個工程通過重寫scheduler和spider類，實現了scheduler調度、spider啟動和固定redis的交互。實現新的dupefilter和queue類，達到了去重和調度容器和redis的交互，因為每個主機上的爬蟲進程都訪問同一個redis數據庫，所以調度和去重都統一進行統一管理，達到了分布式爬蟲的目的。

當spider被初始化時，同時會初始化一個對應的scheduler對象，這個調度器對象通過讀取settings，配置好自己的調度容器queue和判重工具dupefilter。每當一個spider產出一個request的時候，scrapy內核會把這個reuqest遞交給這個spider對應的scheduler對象進行調度，scheduler對象通過訪問redis對request進行判重，如果不重復就把他添加進redis中的調度池。當調度條件滿足時，scheduler對象就從redis的調度池中取出一個request發送給spider，讓他爬取。當spider爬取的所有暫時可用url之后，scheduler發現這個spider對應的redis的調度池空了，于是觸發信號spider_idle，spider收到這個信號之后，直接連接redis讀取strart url池，拿去新的一批url入口，然后再次重復上邊的工作。

參考文章：https://blog.csdn.net/qq351469076/article/details/78756423

最后編輯于：2018.11.24 19:28:38

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,702評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,143評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,553評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,620評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,416評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,940評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,024評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,170評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,709評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,597評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,784評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,291評論 5贊 357
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,029評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,407評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,663評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,403評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,746評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Scrapy-redis的源碼解析

Scrapy-redis的源碼解析

一、先來回顧一下這個問題：

二、Scrapy-redis的源碼解析

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Scrapy-redis的源碼解析

一、先來回顧一下這個問題：

二、Scrapy-redis的源碼解析

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频