PHP实现抓取百度搜索结果,并分析数据结构

PHP实现抓取百度搜索结果,并分析数据结构

PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水。代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
//进入网页
$jar = new \\GuzzleHttp\\Cookie\\CookieJar;
$client = new GuzzleHttp\\Client(['cookies' => true]);
$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar
]);
if($ql->getStatusCode()!=200){
    echo '网站状态不正常';die;
}
echo  $ql->getBody();

6b0d42b0ac5af250f8026e0f3ff8423.png

百度直接拦截了,进了跳转页面,我试试加个浏览器头文件,再试试。

修改后的header如下:

$ql = $client->request('GET', 'https://www.baidu.com', [
    'cookies' => $jar,
    'headers' => [
    'Accept-Encoding' => 'gzip, deflate, br',
    'Accept'     => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Language'      => 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control'      => 'no-cache',
    'Connection'      => 'keep-alive',
    'User-Agent'      => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
]
]);

我测试了下,网站打开了。

8e377d524c553551086d93d9f40c90b.png

我们继续,输入关键词,并搜索,结果发现被安全拦截了,所以我感觉直接用GuzzleHttp搞不动,于是我继续我的神器:jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤:

1.安装依赖

在这之前,要先启用php的proc_open函数,否则无法安装完整

composer install jaeger/querylist
composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下:

<?php
/**
 * Created by Benjiemin
 * Date: 2020/3/5
 * Time: 14:58
 */
require ('./vendor/autoload.php');
use QL\\QueryList;
use QL\\Ext\\Chrome;
$ql = QueryList::getInstance();
// 注册插件,默认注册的方法名为: chrome
$ql->use(Chrome::class);
 $ql->chrome(function ($page,$browser) {
    $page->goto('https://www.baidu.com');
    // 这里故意设置一个很长的延长时间,让你可以看到chrome浏览器的启动
    sleep(3);
    //输入关键词
    $wd = '简庆旺博客';
    $page->type("input[id='kw']",$wd);
    sleep(1);
    //点击搜索
    $page->click("input[type='submit']");
    //等待搜索结果
    sleep(3);
    //获取结果
    $html = $page->content();
    //用jquery选择器抽取结果
    $rules = array(
        'title'=>['#content_left h3 a','text'],//标题
        'url'=>['#content_left h3 a','href'],//跳转网址
        'description'=>['div .c-abstract','text'],//描述
    );
    $ql = QueryList::html($html);
    $rt = $ql->rules($rules)->query()->getData();
    //如果有需要,可以把$rt入库,以及做其他操作
    sleep(10);
    $browser->close();
    // 返回值一定要是页面的HTML内容
    return $html;
},[
    'headless' => false, // 启动可视化Chrome浏览器,方便调试
    'devtools' => false, // 打开浏览器的开发者工具
])->find('title')->text();

$rt是我的结果集合,打印下,如下

b8484929df81399679d8932930690fd.png

57c970e6dcf42d1a286ea23682e0591.png

关于PHP实现抓取百度搜索结果,并分析数据结构的文章就分享到这,如果对你有帮助欢迎继续关注我们哦

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/41181.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
php学习php学习订阅用户
上一篇 2022年6月20日 22:50
下一篇 2022年6月20日 22:51

相关推荐

  • PHP中的功能测试框架。

    随着软件项目的不断增多,开发人员经常会遇到各种的问题。其中最让人头痛的问题之一就是,如何保证项目代码的质量和稳定性。为此,很多开发人员都开始采用各种测试框架来测试他们的代码是否达到了预期的要求。在这…

    2023年5月30日
    00
  • PHP函数的Slim函数。

    PHP是一门非常流行的服务器端脚本语言,在Web开发领域有着广泛的应用。其中,Slim框架是PHP中一个轻量级、灵活、易于学习和使用的开源框架,提供了构建web应用程序所需的基本功能和组件,并且可扩展性强,适用于中…

    2023年5月23日
    00
  • 实现PHP+Mysql无限分类的方法

    无限分类是个老话题了,来看看PHP结合Mysql如何实现。【

    2022年6月17日
    0132
  • PHP与NoSQL数据库的对比

    PHP和NoSQL数据库都是现今非常流行的技术,前者是一种流行的服务器端编程语言,后者则是一种非关系型数据库,主要用于处理半结构化和非结构化数据。PHP和NoSQL数据库分别在不同领域得到了广泛应用,但它们之间的对…

    2023年5月19日
    00
  • PHP中的编辑器和IDE。

    纵观现今互联网开发领域,PHP一度成为最受欢迎的的编程语言之一。许多公司和个人使用PHP开发网站、应用程序和电子商务解决方案。而在PHP开发中,选择一款优秀的编辑器和IDE是非常重要的,因为它们可以提高我们的编…

    2023年5月28日
    01
  • PHP函数的封装性

    使用一个表单,输入任意数字,使之可以在2,8,16进制到10进制或10进制到2,8,16进制之间转换,形式大致如下如下: 原始代码实现 Document 数: 十进制转二进制 二进制转十进制

    2018年4月5日 PHP自学教程
    0207
  • PHP与数据库性能调优的集成。

    随着互联网技术的飞速发展,数据库是网站开发中必不可少的一部分。而PHP是目前最常用的服务器端语言之一,它的高效性能和便捷的开发方式已经被广泛认可。但是,即使是最流行的技术也有其局限性,数据库性能问题是PH…

    2023年5月21日
    00
  • 数据类型的转换

    说明:在PHP中数据类型是可以进制互相转换,如:整型1转换成字符串1 在PHP中分两种转换形式:自动转换和强制转换 5.11.1自动转换 给到特定的写法就会改变原来的类型   5.11.2强制转换 可以使用一些特殊的方式…

    2017年11月28日
    0365

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息