nodejs教程（nodejs教程多线程）

内容

如何通过nodeJs爬虫获取数据简单实现代码

1、通过superagent 获取目标网站的dom 通过cheerio对dom进行解析，获得通用布局。如果只是爬取一个页面，则可以直接将目标页面的目标元素获取如果是分页或者多个页面，可以通过循环获得目标链接，进行多次抓取。

2、可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。环境和安装 Puppeteer本身依赖4以上的Node，但是为了异步超级好用的async/await，推荐使用6版本以上的Node。

3、启动windows命令行工具（windows下启动系统搜索功能，输入cmd回车就出来了）。查看环境变量是否已经自动配置，在命令行工具中输入node-v，如果出现v10字段，则说明成功安装Node.js。

4、 NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用，而且还有很多简单粗暴的库可以即拿即用。

安装宝塔然后安装 Redis 、 PM2 ( node 版本切换到 x )、 Mongodb 。安装ffmpeg 安装程序访问地址： ip：3000 ，后台 ip：3000/adminwww 、管理员账户和密码 admin 。

使用 node 运行这个 js 文件。node ./src/example/exportHtml.js 运行完毕后，example 目录下出现了 exportHtml.html 文件。打开这个文件，就能看到静态的百度首页了。

建立项目craelr-demo 建立一个Express项目，然后将app.js的文件内容全部删除，因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。

如果是定向爬取，且主要目标是解析js动态生成的内容此时候，页面内容是有js/ajax动态生成的，用普通的请求页面-解析的方法就不管用了，需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。

标签

nodejs教程