一、小红书采集软件介绍
除了千瓜之外,我通常使用的工具是2个工具:八爪鱼RPA 和 后羿采集器。
使用RPA+后羿采集器进行小红书笔记采集有两个好处:
1.对搜索的关键词进行批量的爬取(100篇内容)。等同于你在小红书刷20屏,同时支持综合,时间,热度排序。
2.对内容进行批量下载,这个速度比自己刷会快很多很多,市面上已经有非常成熟的RPA采集方案了。
二、如何使用工具进行采集?
首先下载八爪鱼RPA 和 后羿采集器。
进入八爪鱼RPA市场界面-搜索小红书,找到小红书笔记信息批量采集工具。
当然,还有很多其他的RPA工具可以供你选择。
关键的是,他是免费的!
另外,如果你懂RPA,可以根据原有的代码修改成你想要的功能,只想说牛!
获取相应的程序后,点开自己的应用,找到已经加载好的RPA程序,点击运行。
第一次运行会需要获取一些权限,安装浏览器插件,按照要求操作即可。
其实本来这里写了一堆代码,哪里知道还有八爪鱼这种好东西然后设置好你要采集的关键词数据,耐心等待,做点别的事儿。
采集完了之后你就会获得一个EXCEL表格,接下来就是对数据进行清洗了。
筛选,去重,排序,不用我教吧,算了还是讲一下。
三、对小红书笔记进行筛选处理
这里需要用到EXCEL表格的文件合并加载功能。
这样你就会得到一个数据的合集,先去除重复数据之后,再对数据的时间和点赞数据进行分别排序,只保留近期的爆款帖子即可,这样你就得到了一个对标数据库,通过数据透视表还能找到用户的对标账号。
具体的细节操作在这里不多赘述。
这个已经可以作为,标题库和对标库使用了,下一步,就是爆款内容文案的采集。
四、借助后羿采集器实现数据深挖
其实目前八爪鱼的rpa代码已经会帮你采集文案内容,点赞数据了
但是我更习惯让RPA只采集链接,用后羿采集器采集其他数据,因为速度更快
下载后羿采集器,安装好后
选择智能模式,将excel中的采集到的链接进行输入,选择立即创建。
选择右上方的手机浏览器,电脑的被ban了无法使用。
清空掉原本的智障采集器采集的内容。
重新自己选择字段,挨个采集博主名,标题,发布时间,文案,标签,赞藏评数据,如果有需要还可使用深度采集,对博主的粉丝数,简介页面等进行采集。
注意,添加字段的部分大家自己多测试,不同的位置采集的内容不同这个问题不想再回复啦!
选择开始采集,直接选择启动,然后让机器自动采集就好了。
最后导出这些数据到EXCEL表格里和原来的内容进行匹配就好啦。
恭喜你,有了一个完整的内容库,可以开始开会着重分析爆款啦。