网站建设教程
当前位置: 主页 > 推广教程 > 网站建设教程
Shell批量采集百度下拉框关键词
发布日期:2022-10-27 阅读次数:

想要使用shell采集百度下拉框关键词,Windows10的需要安装Ubuntu,其他系统安装cygwin等Linux的虚拟机环境。


安装完成之后,还需用到curl模块,因为我是deepin系统,所以无需安装,检查一下就行。


输入 curl --help 检测是否安装成功。


显示已经安装成功,我们先测试采集单个关键词。


1.jpg


一、shell采集单个关键词


代码如下:


curl -s "https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=shell"|iconv -f gbk -t utf-8|awk -F":" '{print $4}'|grep -oP '(?<=").*?(?=")'|sed 's/,//g'


采集效果:


2.jpg


二、shell批量采集关键词


批量采集下拉框关键词代码:


cat ok.txt|while read line;do curl -s "https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=$line"|iconv -f gbk -t utf-8|awk -F":" '{print $4}'|grep -oP '(?<=").*?(?=")'|sed 's/,//g';done >kws.txt


采集效果:


3.jpg


将它打印到记事本中:


4.jpg


注意:使用批量采集的时候,文件一定要清除编码,可以使用notepad++把格式转换为UTF-8无BOM(菜单-格式-转为UTF-8无BOM编码格式)


百度PC搜索下拉最新接口:


https://www.baidu.com/sugrec?&json=1&prod=pc&wd=关键词


360PC搜索下拉接口:


http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=xml&word=关键词


搜狗PC搜索下拉接口:


http://www.sogou.com/suggnew/ajajjson?key=shell&type=web