做SEO怎么用好scrapy

SEO怎么用好scrapy?python的爬虫框架,scrapy,收集效率相当高,一只蜘蛛跑一万url收集题目之类的10分钟不到就搞定了,当然了,不妨同时跑多只蜘蛛。

首先是scrapy的安装教程,就不搬砖了,直接贴上位置:

http://blog.csdn.net/pleasecallmewhy/article/details/19354723

而后是新建名目标教程:

http://blog.csdn.net/pleasecallmewhy/article/details/19642329

之后就不妨收集了。

SEO

在Scrapy里,运用的是叫做 XPath selectors的机制,它基于 XPath表明式。所以,假如要收集仍然要了解下Xpath(正则也行)。之后的事情就简单多了。底下融合自身写的一只爬虫来吧,这个应当是属于scrapy简单的爬虫了:

baidu_spider.py 取排名,题目,快照,和url(暂未引入其余模块获得真切url),当然,想取描述相同的,再写一个xpath法则,并在items.py中对应的肋下增添dec=Field()能够(拜见新建名目标教程)。

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import BaiduItem

class BaiduSpider(Spider):

name = "baidu"

allowed_domains = ["baidu.com"]

start_urls = ["http://www.baidu.com/s?q1=%BD%F0%B8%D5%C9%B0"]

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//div[@class="result c-container "]')

items = []

for site in sites:

item = BaiduItem()

item['num'] = site.re('(id="d{1,3}")')

item['title'] = site.xpath('h3/a/text()').extract()

item['link'] = site.xpath('h3/a/@href').extract()

item['date'] = site.re('�(d{4}-d{2}-d{2})�')

items.append(item)

return items

复制代码

运转号令:

json数据:

上边是一个简单的使用,在此基本上,咱们将以上代码改进,批量获得一些内容:

以爬某站的spider为例:

SEO

1、url.txt存储url,一行一个。读取后作为参数传给start_urls。

2、咱们要取的是他的全部h1,那么修正xpath表明式。

3、url.txt需求放在根目次下,蜘蛛也是在根目次下号令行运转。运转的号令为scrapy crawl mouzhan -o items.json -t json.(这里咱们保存成功了json格式,文件名叫做items.json)

from scrapy.spider import Spider

from scrapy.selector import Selector

from tutorial.items import MouzhanItem

class MouzhanSpider(Spider):

name = "mouzhan"

allowed_domains = ["mouzhan.com"]

start_urls = open('url.txt','r').readlines()

def parse(self,response):

sel = Selector(response)

sites = sel.xpath('//h1/text()').extract()

items = []

for site in sites:

item = MouzhanItem()

item['h1'] = site

items.append(item)

return items

复制代码

收集到的数据:

后输送的文件是json格式(也不妨存储为csv等格式),编码是unicode,收集的中文在读取时处理下能够。测试的是一只蜘蛛10分钟1万url。不妨同时运转多只蜘蛛。这里没有研究ip代理,ua那些器材,不晓得是收集的网站没有限制仍然scrapy内部有处理,不过查了下,scrapy不妨自行配置代理的。

scrapy也只是刚接触,并未有更深的研讨,可是相对而言收集的速度相当快,我用beautifulsoup分析html收集的脚本要运转2个半小时才能收集1万数据,应当是不用给定url,在写的过程中制订法则就不妨让蜘蛛去爬的。

至于scrapy在seo上的使用,我也说不走出多少,起码用这个器材用来查排名应当不慢(杀鸡焉用牛刀),批量查收录之类的,收集效率也高,至于收集谁,收集回来的器材怎么用,看你自身了。ps(轻喷:原本我也不晓得学这器材做什么,反正我是小企业站,暂且不晓得用来做什么。)

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/39344.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
优化家优化家订阅用户
上一篇 2022年5月31日 21:22
下一篇 2022年5月31日 21:22

相关推荐

  • 网站用户体验优化针对网站内容

    随着互联网技术的发展,大大小小的实体行业进入到互联网,站点竞争进入了前所未有的“革命时代”,越来越多的站点了解并熟悉SEO技术,各个行业的站点流量拼抢到达了一种狂热。对搜索引擎是越来越了解并且…

    2022年5月28日
    0259
  • 选择域名要注意哪些问题。

      俗话说好的开始是成功的一半,做seo也是这样,选择一个好的域名对seo也会有很大的帮助,不过我们在选择域名的时候要注意下面几点,以免选择不恰当的域名进而影响网站的发展。 (简单四步打造搜索引擎喜爱的网站…

    2022年3月12日
    0171
  • 网站优化与客户之间的六个注意点

    1、认清用户的真实目的、满足他们的搜索需求 并不只是服务于搜索引擎,更重要的是满足用户的需求,让他们满意。因而,了解用户的真实目的,并满足他们的需求是每个站长都必须尽量做好的一点。 举个例子,比如用户搜…

    2022年5月28日 SEO操作
    0326
  • SEO优化的最终目标你真的清楚吗?

    SEO优化就是通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网站在百度和Google的排名提高,让搜索引擎给你带来客户。SEO关键词优化已经成为企业网络营销的主要手段,其目的都是为了最后的搜索引擎的优化…

    2022年6月3日
    0279
  • SEO中TDK优化浅谈。

    首先我们要知道什么是“TDK”(T:title,页面的标题;D:Description,页面的描述文字;K:keywords,页面关键词),对于网站标题、描述、关键字的设置优化不用说当然是为了后期网站更好的展现在搜索引擎中,使更多…

    2022年3月12日
    0333
  • [广州seo]网站优化中日常分析检测的重要性

    我们在网站优化过程中,平时要注意网站的分析和检测,才能让我们的优化更加有针对性,下面来了解一下做分析检测对网站优化有什么用处: ①各个蜘蛛抓取目录情况(蜘蛛都是先从网站首页往目录进行爬行,爬行之后再抓取…

    2022年6月2日
    0276
  • 怎样在百度里面做外链。

    网站外部链接在网站排名以及计算网站权重占比较大的比例,而这里要谈的是如何通过bd来做我们的高质量外部链接。百度旗下的产品有很多诸如:空间,知道,图片,文库,百科,贴吧等在这几个方面在经过长期筛选我们认为…

    2022年3月12日
    0172
  • 怎样有用地展开你的百度搜索引擎优化seo?

    ICP答应证新站点需求做的榜首件事就是注册ICP答应证。运营性网站有必要处理ICP答应证,不然就归于非法运营。因而,处理ICP证是企业网站合法运营的需求。ICP答应证有两种类型。榜首个是商业网站,需求我国企业注册。…

    2022年5月31日
    0252

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息