大家好,欢迎来到IT知识分享网。
爬虫不是一个小众的场景,所以无论是哪个语言,都有很多相应的生态库.这里介绍一下PHP的技术方案和代码量。
关键能力
对页面的解析能力
PHP的官方扩展中有Dom扩展,但是我建议使用electrolinux/phpquery这个库,他相当于一个PHP版的JQ.
算上加载文件,只要三行就能获取title标签内容.
<?php
include 'phpQuery-onefile.php';
$file = 'test.html';
// 加载文件
phpQuery::newDocumentFileHTML($file);
// 加载之后就可以使用JQ的操作方法去解析.
$titleElement = pq('title');
// 也可以使用对象的操作方式
$title = $titleElement->html();
对数据库的操作能力
PHP对数据库的操作能力不是吹的,原生扩展中支持PDO,这里可以尝试ThinkPHP的think-orm.
简简单单一学就会.
use think\facade\Db; // 数据库配置信息设置(全局有效) Db::setConfig([ // 默认数据连接标识 'default' => 'mysql', // 数据库连接信息 'connections' => [ 'mysql' => [ // 数据库类型 'type' => 'mysql', // 主机地址 'hostname' => '127.0.0.1', // 用户名 'username' => 'root', // 数据库名 'database' => 'demo', // 数据库编码默认采用utf8 'charset' => 'utf8', // 数据库表前缀 'prefix' => 'think_', // 数据库调试模式 'debug' => true, ], ], ]); // 查询 Db::name('user')->where('id', 1)->find(); // 新增 $data = ['foo' => 'bar', 'bar' => 'foo']; Db::name('user')->insert($data); //更新 Db::name('user') ->update(['id' => 1, 'name' => 'thinkphp']); // 删除 Db::table('think_user')->where('id', 1)->delete();
爬虫效率
PHP对于性能的优化有很多很深的解决方案,包括使用协程等,这里只介绍最简单的的一种方式,使用guzzle这个库(他使用curl 的并行加载特性).
use GuzzleHttp\Client; use GuzzleHttp\Promise; $client = new Client(['base_uri' => 'http://httpbin.org/']); // 发起不阻塞的请求 $promises = [ 'image' => $client->getAsync('/image'), 'png' => $client->getAsync('/image/png'), 'jpeg' => $client->getAsync('/image/jpeg'), 'webp' => $client->getAsync('/image/webp') ]; // 等待所有请求完成 $responses = Promise\Utils::settle($promises)->wait();
代码量
如上面例子所示,代码量并不多,去掉配置文件,只有十几行代码,最关键的是我们需要的特性并没有削弱.
比如:
- 极简的DOM解析
- 健壮的SQL操作
- 发起并行请求
解析JS
有时候我们要抓取的页面是依赖JS执行的,这是需要一个无头浏览器,此时介绍这样一个库,他能够很简单的完成对phantomjs的操作.
PHP PhantomJS 是一个灵活的 PHP 库,让PHP通过很简单的代码来操作 PhantomJS 无头浏览器加载页面。 让PHP加载的网页地址执行JS/页面截图/导出PDF.
他可以非常方便的实现这些功能:
- 使用无头浏览器PhantomJS加载请求
- 查看详细的响应数据,包括页面内容、标题、状态 代码等
- 处理重定向
- 查看JS控制台输出报错
- 查看详细的PhantomJS调试信息
- 保存页面的截图
- 将页面导出为PDF
- 设置浏览窗口大小
- 为PDF导出设置页眉页脚
- 指定截图位置x,y和宽高
- 延迟页面渲染(等待页面加载完成)
- 轻松构建和运行PhantomJS脚本
PHP PhantomJS 只要求 PHP 5.4.0 或以上即可。
基本用法
使用phantomjs发起一个请求非常简单:
<?php use JonnyW\PhantomJs\Client; $client = Client::getInstance(); / * @see JonnyW\PhantomJs\Http\Request / $request = $client->getMessageFactory()->createRequest('http://phpreturn.com', 'GET'); / * @see JonnyW\PhantomJs\Http\Response / $response = $client->getMessageFactory()->createResponse(); // Send the request $client->send($request, $response); if($response->getStatus() === 200) { // Dump the requested page content echo $response->getContent(); }
使用PHP总是更舒服,更简单.
原文标题: PHP在做爬虫时的解决方案
原文地址:
https://phpreturn.com/index/a62235bdfe4e70.html原文平台: PHP武器库
版权声明: 本文由phpreturn.com(PHP武器库官网)原创和首发,所有权利归phpreturn(PHP武器库)所有,本站允许任何形式的转载/引用文章,但必须同时注明出处。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/186078.html