最近在练习写爬虫的时候,正巧同学的女朋友有需求,大概是爬取知网内的几千个主题的数据,每一个主题的条数记录有几条的到几千条的不等,总来的来说也算是个上万数量级的爬虫了,分析了下知网,发现使用专业检索,可以完成我的目标,然后通过chrome的developer
tools大概分析了下了请求数据包,发现知网的查询是分成两步的,第一步是一个总的请求(查询的条件基本上都在第一步里面了),会返回一个串

python cmd命令调用

关于python调用cmd命令:

主要介绍两种方式:

1.python的OS模块。

  OS模块调用CMD命令有两种方式:os.popen(),os.system().
都是用当前进程来调用。

  os.system是无法获取返回值的。当运行结束后接着往下面执行程序。用法如:OS.system(“ipconfig”).

  OS.popen带返回值的,如何获取返回值。如

  p=os.popen(cmd)

  print p.read().得到的是个字符串。

  这两个都是用当前进程来调用,也就是说它们都是阻塞式的。

2.管道subprocess模块。

  运行原理会在当前进程下面产生子进程。

  sub=subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE)

  sub.wait()

  print sub.read()

我的微信是Williamjiamin
,我非常热爱金融与编程,也在利用Python从事Fintech和DataScience相关的工作。
我想通过这个讨论群大家一起交流讨论,还有就是互相分享资料及行业前沿信息和内推。
学习群的氛围很好,我也会尽量抽空在一起晚上进行答疑帮助大家。
欢迎大家加我微信,我们一起学习。

图片 1

图片 2

然后才能做第二步的数据请求(下方的截图对应网页上的不同区域的请求报文头和返回数据)

图片 3

图片 4

图片 5

                                                                     
 图一.查询记录请求报文头

图片 6

图片 7

图片 8

发表评论

电子邮件地址不会被公开。 必填项已用*标注