前提是需要将python的版本升级到python3。升级方法见:linux下python升级至python3知乎
然后还需要安装bs4.安装的方法是命令行输入 python -m pip install bs4 即可(如果安装了python3但是不是默认的python版本,则需要输入python3 -m pip install bs4)
然后运行下面的脚本,就可以看到命令行筛选出我们需要的链接了!
#coding=utf-8
import urllib.request #注意!如果是python2版本没有request模块。需要升级到python3.
import ssl
from bs4 import BeautifulSoup
url_list=['https://******.html']#填入所需ulr
for url in url_list:
ssl._create_default_https_context = ssl._create_unverified_context
req=urllib.request.Request(url)
rsp=urllib.request.urlopen(req)
html=rsp.read().decode('utf-8','ignore')
html=BeautifulSoup(html,'html.parser')
counter=0
for link in html.find_all('a',limit=92):#limit这里可以限制最多的条数,防止网页中的链接太多。
info_link=link.get('href')
if type(info_link)!=type('abc'):
continue
if len(info_link)<28 or len(info_link)>29:#修改此处的数值对查找到的链接进行筛选。可以自己调参尝试。
continue
counter=counter+1
info_text=link.get_text(strip=True)
print(counter)
print(info_text)
print('https://*******/'+info_link+'\n')#修改此处的网址,根据情况补全链接