对于动态数据的爬取,可以选择selenium
和PhantomJS
两种方式,本文选择的是PhantomJS。
网址:
https://s.taobao.com/search"htmlcode">from selenium import webdriver from scrapy.http.response.html import HtmlResponse from scrapy.http.response import Response class SeleniumSpiderMiddleware(object): def __init__(self): self.driver = webdriver.PhantomJS() def process_request(self ,request ,spider): # 当引擎从调度器中取出request进行请求发送下载器之前 # 会先执行当前的爬虫中间件 ,在中间件里面使用selenium # 请求这个request ,拿到动态网站的数据 然后将请求 # 返回给spider爬虫对象 if spider.name == 'taobao': # 使用爬虫文件的url地址 spider.driver.get(request.url) for x in range(1 ,12 ,2): i = float(x) / 11 # scrollTop 从上往下的滑动距离 js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i spider.driver.execute_script(js) response = HtmlResponse(url=request.url, body=spider.driver.page_source, encoding='utf-8', request=request) # 这个地方只能返回response对象,当返回了response对象,那么可以直接跳过下载中间件,将response的值传递给引擎,引擎又传递给 spider进行解析 return response在设置中,要将
middlewares
设置打开。进入
settings.py
文件中,将DOWNLOADER_MIDDLEWARES = { 'taobaoSpider.middlewares.SeleniumSpiderMiddleware': 543, }打开。
2.第二步,爬取数据
回到spider爬虫文件中。
引入:
from selenium import webdriver自定义属性:
def __init__(self): self.driver = webdriver.PhantomJS()查找数据和分析数据:
def parse(self, response): div_info = response.xpath('//div[@class="info-cont"]') print(div_info) for div in div_info: title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('') # title = self.driver.find_element_by_class_name("title-row").text print('名称:', title) price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')3.第三步,传送数据到item中:
在
item.py
文件中:name = scrapy.Field() price = scrapy.Field()回到
spider.py
爬虫文件中:引入:
from ..items import TaobaospiderItem传送数据:
#创建实例化对象。
item = TaobaospiderItem() item['name'] = title item['price'] = price yield item在设置中,打开:
ITEM_PIPELINES = { 'taobaoSpider.pipelines.TaobaospiderPipeline': 300, }4.第四步,写入数据库:
进入管道文件中。
引入
import sqlite3 写入数据库的代码如下: class TaobaospiderPipeline(object): def __init__(self): self.connect = sqlite3.connect('taobaoDB') self.cursor = self.connect.cursor() self.cursor.execute('create table if not exists taobaoTable (name text,price text)') def process_item(self, item, spider): self.cursor.execute('insert into taobaoTable (name,price)VALUES ("{}","{}")'.format(item['name'],item['price'])) self.connect.commit() return item def close_spider(self): self.cursor.close() self.connect.close()在设置中打开:
ITEM_PIPELINES = { 'taobaoSpider.pipelines.TaobaospiderPipeline': 300, }因为在上一步,我们已经将管道传送设置打开,所以这一步可以不用重复操作。
然后运行程序,打开数据库查看数据。
至此,程序结束。
下附spider爬虫文件所有代码:
# -*- coding: utf-8 -*- import scrapy from selenium import webdriver from ..items import TaobaospiderItem class TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com'] start_urls = ['https://s.taobao.com/search"info-cont"]') print(div_info) for div in div_info: title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('') print('名称:', title) price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('') item = TaobaospiderItem() item['name'] = title item['price'] = price yield item def close(self,reason): print('结束了',reason) self.driver.quit()关于scrapy的中文文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/faq.html
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对的支持。如果你想了解更多相关内容请查看下面相关链接
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。