当前位置:网站首页 > tp日志 > 正文

thinkphp能实现自动爬虫的功能吗?

thinkphp教练 0

  如果你是一名站长,同时又是比较懒的站长,估计有用过采集软件,比如火车头,或者其他站群采集软件。

  之前就听过不少站长说,有没有直接集合在网站里面的采集系统,不然火车头之前都只有windows版本,在Linux服务器上面根本就运行不起来。



  关于thinkphp开发采集程序,thinkphpedu 会在后续的实战课程中更新出来。



  今天我们先说一下,如果你有thinkphp二开的功底,那么如何开发采集系统呢?



  我们需要爬虫框架,PHP有不少好用的爬虫框架。





  1、  phpspider   (本框架只能在命令行下运行,命令行、命令行、命令行,重要的事情说三遍)

 PHPspider下载地址  https://pan.baidu.com/s/10n9ZOUQBlrJzOQx0ShOmMQ   提取码:b2zc    或者   https://github.com/owner888/phpspider   

 PHPspider说明文档  https://doc.phpspider.org/  

 基本看完文档就能对接的一个PHP爬虫框架。



 2、QueryList  

 QueryList不依赖任何框架和架构,它可以单独使用也可以引入到任意的PHP开发框架中去使用,如:Laravel、ThinkPHP;你可以使用它来构建简单的采集系统,也可以用它才构建高可用的分布式采集系统。它提供了丰富的基于CSS选择器的页面抽取API,完全模块化的设计,拥有强大的可扩展性。

 querylist 的安装方式是 通过  composer安装的    composer require jaeger/querylist         你可以参考 thinkphp的composer安装教程      |  GitHub地址 https://github.com/jae-jae/querylist



 querylist 说明文档  https://www.querylist.cc     |  https://querylist.cc/docs/guide/v4/overview  



 3 、Beanbun  

 

Beanbun 是一个简单可扩展的爬虫框架,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。

框架名称来自于作者家的猫,此猫名叫门丁,“门丁”是北方的一种面点。

 

 beanbun 下载地址  https://github.com/kiddyuchina/Beanbun  

 beanbun 说明文档    https://www.w3cschool.cn/beanbun/



 之前只使用过 PHPspider 其他的还没有用过,没有发言权,大家可以先对接使用,有什么感受可以留言交流。