16.6. 分布式进程 ¶

分布式进程指的是将Process进程分布到多台机器上，充分利用多台机器的性能完成复杂的任务。我们可以将这一点应用到分布式爬虫的开发中。

分布式进程在Python中依然要用到multiprocessing模块。 multiprocessing模块不但支持多进程，其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者，将任务分布到其他多个进程中，依靠网络通信进行管理。

举个例子：

在做爬虫程序时，常常会遇到这样的场景，我们想抓取某个网站的所有图片，如果使用多进程的话，
一般是一个进程负责抓取图片的链接地址，将链接地址存放到Queue中，
另外的进程负责从Queue中读取链接地址进行下载和存储到本地。
现在把这个过程做成分布式，一台机器上的进程负责抓取链接，
其他机器上的进程负责下载存储。
那么遇到的主要问题是将Queue暴露到网络中，
让其他机器进程都可以访问，分布式进程就是将这一个过程进行了封装，
我们可以将这个过程称为本地队列的网络化。

分布式进程 要实现上面例子的功能，创建分布式进程需要分为六个步骤：

1）建立队列Queue，用来进行进程间的通信。服务进程创建任务队列task_queue，用来作为传递任务给任务进程的通道；服务进程创建结果队列result_queue，作为任务进程完成任务后回复服务进程的通道。在分布式多进程环境下，必须通过由Queuemanager获得的Queue接口来添加任务。

2）把第一步中建立的队列在网络上注册，暴露给其他进程（主机），注册后获得网络队列，相当于本地队列的映像。

3）建立一个对象（Queuemanager（BaseManager））实例manager，绑定端口和验证口令。

4）启动第三步中建立的实例，即启动管理manager，监管信息通道。

5）通过管理实例的方法获得通过网络访问的Queue对象，即再把网络队列实体化成可以使用的本地队列。

6）创建任务到“本地”队列中，自动上传任务到网络队列中，分配给任务进程进行处理。

16.6.1. 分布式进程案例1 ¶

接下来通过程序实现上面的例子（Linux版），首先编写的是服务进程（taskManager.py），代码如下：

task_Manager_Linux版.py

#!/usr/bin/env python
# -*- coding:utf8 -*-
# auther; 18793
# Date：2020/2/26 12:50
# filename: task_Manager_Linux版.py

import random, time
import queue as Queue
from multiprocessing.managers import BaseManager

# 实现第一步：建立task_queue和result_queue，用来存放任务和结果
task_queue = Queue.Queue()
result_queue = Queue.Queue()


class Queuemanager(BaseManager):
    pass


# 实现第二步：把创建的两个队列注册在网络上，利用register方法，callable参数关联了Queue对象，
# 将Queue对象在网络中暴露
Queuemanager.register('get_task_queue', callable=lambda: task_queue)
Queuemanager.register('get_result_queue', callable=lambda: result_queue)
# 实现第三步：绑定端口8001，设置验证口令‘qiye’。这个相当于对象的初始化
manager = Queuemanager(address=('', 8001), authkey=b'admin#123')
# 实现第四步：启动管理，监听信息通道
manager.start()
# 实现第五步：通过管理实例的方法获得通过网络访问的Queue对象
task = manager.get_task_queue()
result = manager.get_result_queue()
# 实现第六步：添加任务
for url in ["ImageUrl_" + str(i) for i in range(10)]:
    print('put task %s ...' % url)
    task.put(url)
# 获取返回结果
print('try get result...')
for i in range(10):
    print('result is %s' % result.get(timeout=10))
# 关闭管理
manager.shutdown()

taskManager_Windows版.py

# -*- coding: utf-8 -*-
import queue as Queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support

# 任务个数
task_number = 10
# 定义收发队列
task_queue = Queue.Queue(task_number)
result_queue = Queue.Queue(task_number)


def get_task():
    return task_queue


def get_result():
    return result_queue


# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass


def win_run():
    # windows下绑定调用接口不能使用lambda，所以只能先定义函数再绑定
    QueueManager.register('get_task_queue', callable=get_task)
    QueueManager.register('get_result_queue', callable=get_result)
    # 绑定端口并设置验证口令，windows下需要填写ip地址，linux下不填默认为本地
    manager = QueueManager(address=('127.0.0.1', 8001), authkey=b'admin#123')
    # 启动
    manager.start()
    try:
        # 通过网络获取任务队列和结果队列
        task = manager.get_task_queue()
        result = manager.get_result_queue()
        # 添加任务
        for url in ["ImageUrl_" + str(i) for i in range(10)]:
            print('put task %s ...' % url)
            task.put(url)
        print('try get result...')
        for i in range(10):
            print('result is %s' % result.get(timeout=10))
    except:
        print('Manager error')
    finally:
        # 一定要关闭，否则会爆管道未关闭的错误
        manager.shutdown()


if __name__ == '__main__':
    # windows下多进程可能会有问题，添加这句可以缓解
    freeze_support()
    win_run()

task_worker.py

# -*- coding: utf-8 -*-
import time
from multiprocessing.managers import BaseManager


# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass


# 实现第一步：使用QueueManager注册获取Queue的方法名称
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 实现第二步：连接到服务器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证口令注意保持与服务进程设置的完全一致:
m = QueueManager(address=(server_addr, 8001), authkey=b'admin#123')
# 从网络连接:
m.connect()
# 实现第三步：获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 实现第四步：从task队列取任务,并把结果写入result队列:
while (not task.empty()):
    image_url = task.get(True, timeout=5)
    print('run task download %s...' % image_url)
    time.sleep(1)
    result.put('%s--->success' % image_url)
# 处理结束:
print('worker exit.')

执行taskManager_Windows版.py的输出如下：

put task ImageUrl_0 ...
put task ImageUrl_1 ...
put task ImageUrl_2 ...
put task ImageUrl_3 ...
put task ImageUrl_4 ...
put task ImageUrl_5 ...
put task ImageUrl_6 ...
put task ImageUrl_7 ...
put task ImageUrl_8 ...
put task ImageUrl_9 ...
try get result...

执行task_worker.py的输出如下：

Connect to server 127.0.0.1...
run task download ImageUrl_0...
run task download ImageUrl_1...
run task download ImageUrl_2...
run task download ImageUrl_3...
run task download ImageUrl_4...
run task download ImageUrl_5...
.......

taskManager_Windows版.py的输出

result is ImageUrl_0--->success
result is ImageUrl_1--->success
result is ImageUrl_2--->success
result is ImageUrl_3--->success
result is ImageUrl_4--->success
result is ImageUrl_5--->success
.....

16.6.2. 分布式进程案例2 ¶

task_master.py服务进程负责启动Queue，把Queue注册到网络上，然后往Queue里面写入任务：

task_master.py

#!/usr/bin/env python
# -*- coding:utf8 -*-
# @auther:   18793
# @Date：    2020/6/30 22:04
# @filename: task_master.py
# @Email:    1879324764@qq.com
# @Software: PyCharm

import random
import time
import queue
from multiprocessing.managers import BaseManager

task_queue = queue.Queue()
result_queue = queue.Queue()


def re_task_queue():
    global task_queue
    return task_queue


def re_result_queue():
    global result_queue
    return result_queue


class QueueManager(BaseManager):
    pass


if __name__ == '__main__':

    QueueManager.register("get_task_queue", callable=re_task_queue)
    QueueManager.register("get_result_queue", callable=re_result_queue)
    manager = QueueManager(address=("127.0.0.1", 5000), authkey=b'abc')
    manager.start()

    task = manager.get_task_queue()
    result = manager.get_result_queue()

    # 将初始数据推入queue中
    for i in range(10):
        n = random.randint(0, 10000)
        print("Put task %d..." % n)
        task.put(n)

    print("Try to get results...")
    # 阻塞之后等待queue写入数据后再次get出结果
    for i in range(10):
        r = result.get(timeout=10)
        print("Result: %s" % r)

    manager.shutdown()
    print("Master exit.")

另一台机器上启动任务进程（本机上启动也可以）task_worker进行计算后，再次将数据put进queue中：

task_worker.py

#!/usr/bin/env python
# -*- coding:utf8 -*-
# @auther:   18793
# @Date：    2020/6/30 22:04
# @filename: task_worker.py
# @Email:    1879324764@qq.com
# @Software: PyCharm
import time, sys
import queue as Queue
from multiprocessing.managers import BaseManager

# 创建类似的QueueManager:
class QueueManager(BaseManager):
    pass

# 由于这个QueueManager只从网络上获取Queue，所以注册时只提供名字:
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')

# 连接到服务器，也就是运行task_master.py的机器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证码注意保持与task_master.py设置的完全一致:
m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
# 从网络连接:
m.connect()
# 获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 从task队列取任务,并把结果写入result队列:
for i in range(10):
    try:
        n = task.get(timeout=1)
        print('run task %d * %d...' % (n, n))
        r = '%d * %d = %d' % (n, n, n*n)
        time.sleep(1)
        result.put(r)
    except Queue.Empty:
        print('task queue is empty.')
# 处理结束:
print('worker exit.')

16.6. 分布式进程¶

16.6.1. 分布式进程案例1¶

16.6.2. 分布式进程案例2¶

16.6. 分布式进程 ¶

16.6.1. 分布式进程案例1 ¶

16.6.2. 分布式进程案例2 ¶