Python Scrapy 入门项目

2019-09-15

原创字数统计: 375 | 阅读时长: 1分

QQ截图20190919202839.png

学习爬虫的入门项目。

创建项目

这里我创建了一个ScrapyProject文件夹，用来存放各个Scrapy项目，要爬的网站是：https://www.xicidaili.com/

QQ截图20190915140842.png

所以项目命名为xicidailiSpider
cmd要cd到ScrapyProject目录下，然后执行

1	scrapy startproject xicidailiSpider

这时候 scrapy 就会自动生成项目文件，注意下文件目录
xicidailiSpider文件夹下还有一个xicidailiSpider文件夹，以及一个scrapy.cfg配置文件。

打开xicidailiSpider/xicidailiSpider文件夹，可以看到这些文件，其中存放爬虫文件的就是spiders文件夹

生成爬虫文件

cmd要cd到ScrapyProject/xicidailiSpider目录下，然后执行

1 2	scrapy genspider xicidaili xicidaili.com //释: 生成爬虫名字要爬的域名

Ps: 注意，爬虫的.py文件不要和项目名重复

这时候会发现spiders文件夹多了一个xicidaili.py，这就是我们要的爬虫文件

打开文件,一开始默认应该是这样的

准备爬点东西下来（<tr>内的<td>标签的内容）

修改xicidaili.py的内容为：

# -*- coding: utf-8 -*-
import scrapy


class XicidailiSpider(scrapy.Spider):
    name = 'xicidaili'
    allowed_domains = ['xicidaili.com']
    start_urls = ['https://www.xicidaili.com/nn/5']

    def parse(self, response):
        selectors = response.xpath('//tr')

        for selector in selectors:
            ip = selector.xpath('./td[2]/text()').get()
            port = selector.xpath('./td[3]/text()').get()
            print(ip,port)