pyhton 网络爬取软考题库保持txt-博客园

pyhton 网络爬取软考题库保持txt

2019-02-12 12:02:01 发布 295 浏览

页面报错/反馈

已收藏点赞

#-*-coding:utf-8-*-
#参考文档
#https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-all

#https://m.cnitpm.com


import requests
import re
from bs4 import BeautifulSoup
html = requests.get('https://m.cnitpm.com/exam/ExamST1_1031655.htm/')
soup = BeautifulSoup(html.text,'lxml')
ulTag=soup.find_all('ul','tit')
for item in ulTag:
    a_temp=item.find_all('a')
    #print(a_temp)
    for aitem in a_temp:
        #print (aitem.get('href'))
        html2 = requests.get(aitem.get('href'))
        #解决乱码问题
        html2.encoding = 'utf-8'
        soup2 = BeautifulSoup(html2.text, 'lxml')
        divTag = soup2.find_all('div', 'tm-box')
        for divitem in divTag:
          print(divitem.get_text())
        #print(divTag.replace('[<div class="tm-box">', ''))
################################以上为爬取############################################

登录查看全部

参与评论

pyhton 网络爬取软考题库保持txt

参与评论

评论留言

还没有评论留言，赶紧来抢楼吧~~

给这篇文章打个标签吧~