1、通过superagent 获取目标网站的dom 通过cheerio对dom进行解析,获得通用布局。如果只是爬取一个页面,则可以直接将目标页面的目标元素获取 如果是分页或者多个页面,可以通过循环获得目标链接,进行多次抓取。
2、可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。 环境和安装 Puppeteer本身依赖4以上的Node,但是为了异步超级好用的async/await,推荐使用6版本以上的Node。
3、启动windows命令行工具(windows下启动系统搜索功能,输入cmd回车就出来了)。查看环境变量是否已经自动配置,在命令行工具中输入node-v,如果出现v10字段,则说明成功安装Node.js。
4、 NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用,而且还有很多简单粗暴的库可以即拿即用。
安装宝塔 然后安装 Redis 、 PM2 ( node 版本切换到 x )、 Mongodb 。安装ffmpeg 安装程序 访问地址: ip:3000 ,后台 ip:3000/adminwww 、管理员账户和密码 admin 。
使用 node 运行这个 js 文件。node ./src/example/exportHtml.js 运行完毕后,example 目录下出现了 exportHtml.html 文件。打开这个文件,就能看到静态的百度首页了。
建立项目craelr-demo 建立一个Express项目,然后将app.js的文件内容全部删除,因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。
如果是定向爬取,且主要目标是解析js动态生成的内容 此时候,页面内容是有js/ajax动态生成的,用普通的请求页面-解析的方法就不管用了,需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。