python中怎么实现分布式抓取网页-古蔺大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

python中怎么实现分布式抓取网页

python中怎么实现分布式抓取网页，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

成都创新互联公司专注为客户提供全方位的互联网综合服务，包含不限于成都做网站、网站制作、安吉网络推广、重庆小程序开发、安吉网络营销、安吉企业策划、安吉品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；成都创新互联公司为所有大学生创业者提供安吉建站搭建服务，24小时服务热线：13518219792，官方网址：www.cdcxhl.com

[python]
view plaincopy

'''''
Created on 2010-9-15
@author: chenggong
'''
import urllib2
import re
import socket
DEBUG = 0
'''''
工具类
'''
class Tools():
#log函数
@staticmethod
def writelog(level,info,notify=False):
if DEBUG == 0:
try:
print "["+level+"]"+info.decode('UTF-8').encode('GBK')
except:
print "["+level+"]"+info.encode('GBK')
else:
print "["+level+"]"+info
#if notify:
# print "[notify]报告管理员!!"
#转unicode
@staticmethod
def toUnicode(s,charset):
if( charset == "" ):
return s
else:
try:
u = unicode( s, charset )
except:
u = ""
return u
#正则抓取
#@param single 是否只抓取一个
@staticmethod
def getFromPatten(patten,src,single=False):
rst = "";
p = re.compile(patten,re.S)
all = p.findall(src)
for matcher in all:
rst += matcher + " "
if( single ):
break
return rst.strip()
'''''
网页内容爬虫
'''
class PageGripper():
URL_OPEN_TIMEOUT = 10 #网页超时时间
MAX_RETRY = 3 #最大重试次数
def __init__(self):
socket.setdefaulttimeout(self.URL_OPEN_TIMEOUT)
#获取字符集
def getCharset(self,s):
rst = Tools.getFromPatten(u'charset=(.*?)"',s,True)
if rst != "":
if rst == "utf8":
rst = "utf-8"
return rst
#尝试获取页面
def downloadUrl(self,url):
charset = ""
page = ""
retry = 0
while True:
try:
fp = urllib2.urlopen(url)
break
except urllib2.HTTPError,e: #状态错误
Tools.writelog('error','HTTP状态错误 code='+e.code)
raise urllib2.HTTPError
except urllib2.URLError,e: #网络错误超时
Tools.writelog('warn','页面访问超时,重试..')
retry+=1
if( retry > self.MAX_RETRY ):
Tools.writelog('warn','超过最大重试次数,放弃')
raise urllib2.URLError
while True:
line = fp.readline()
if charset == "":
charset = self.getCharset(line)
if not line:
break
page += Tools.toUnicode(line,charset)
fp.close()
return page
#获取页面
def getPageInfo(self,url):
Tools.writelog( "info","开始抓取网页,url= "+url)
info = ""
try:
info = self.downloadUrl(url)
except:
raise
Tools.writelog("debug","网页抓取成功")
return info
'''''
内容提取类
'''
class InfoGripper():
pageGripper = PageGripper()
def __init__(self):
Tools.writelog('debug',"爬虫启动")
#抓取标题
def griptitle(self,data):
title = Tools.getFromPatten(u'box2t sp">
(.*?)
', data, True)
if title == "":
title = Tools.getFromPatten(u'(.*?)[-<]',data,True) </li><li> return title.strip() </li><li></li><li> #抓取频道</li><li> def gripchannel(self,data): </li><li> zone = Tools.getFromPatten(u'频道：(.*?)',data,True) </li><li> channel = Tools.getFromPatten(u'<a.*?>(.*?)</a>',zone,True) </li><li> return channel </li><li></li><li> #抓取标签</li><li> def griptag(self,data): </li><li> zone = Tools.getFromPatten(u'标签：(.*?)</[^a].*>',data,True); </li><li> rst = Tools.getFromPatten(u'>(.*?)</a>',zone,False); </li><li> return rst </li><li></li><li> #抓取观看次数</li><li> def gripviews(self,data): </li><li> rst = Tools.getFromPatten(u'已经有(.*?)次观看',data); </li><li> return rst </li><li></li><li> #抓取发布时间</li><li> def griptime(self,data): </li><li> rst = Tools.getFromPatten(u'在(.*?)发布',data,True) </li><li> return rst </li><li></li><li> #抓取发布者</li><li> def gripuser(self,data): </li><li> rst = Tools.getFromPatten(u'title="点击进入(.*?)的用户空间"',data,True) </li><li> return rst </li><li></li><li> #获取页面字符集</li><li> def getPageCharset(self,data): </li><li> charset = Tools.getFromPatten(u'charset=(.*?)"',data,True) </li><li></li><li> if( charset == "utf8" ): </li><li> charset = "utf-8"</li><li> return charset </li><li></li><li> #获取CC相关数据</li><li> def getCCData(self,data): </li><li></li><li> zone = Tools.getFromPatten(u'SWFObject(.*?)</script>',data,True) </li><li></li><li> #判断是否使用bokecc播放</li><li> isFromBokeCC = re.match('.*bokecc.com.*', zone) </li><li> if( not isFromBokeCC ): </li><li> return "","" </li><li></li><li> ccSiteId = Tools.getFromPatten(u'siteid=(.*?)[&,"]',zone,True) </li><li> ccVid = Tools.getFromPatten(u'vid=(.*?)[&,"]',zone,True) </li><li> return ccSiteId,ccVid </li><li></li><li> #获取站内vid</li><li> def gripVideoId(self,data): </li><li> vid = Tools.getFromPatten(u'var vid = "(.*?)"',data,True) </li><li> return vid </li><li></li><li> #获取点击量</li><li> def gripViewsAjax(self,vid,url,basedir): </li><li> host = Tools.getFromPatten(u'http://(.*?)/',url,True) </li><li> ajaxAddr = "http://" + host + basedir + "/index.php/ajax/video_statistic/" + vid </li><li> '''''</li><li> try:</li><li> content = self.pageGripper.getPageInfo(ajaxAddr)</li><li> except Exception,e:</li><li> print e</li><li> Tools.writelog ("error", ajaxAddr+u"抓取失败")</li><li> return "error"</li><li> '''</li><li> Tools.writelog('debug', u"开始获取点击量,url="+ajaxAddr) </li><li> while True: </li><li> try: </li><li> fp = urllib2.urlopen(ajaxAddr) </li><li> break</li><li> except urllib2.HTTPError,e: #状态错误</li><li> Tools.writelog('error','HTTP状态错误 code='+"%d"%e.code) </li><li> return "" </li><li> except urllib2.URLError,e: #网络错误超时</li><li> Tools.writelog('warn','页面访问超时,重试..') </li><li> retry+=1</li><li> if( retry > self.MAX_RETRY ): </li><li> Tools.writelog('warn','超过最大重试次数,放弃') </li><li> return "" </li><li> content = fp.read() </li><li> fp.close() </li><li> views = Tools.getFromPatten(u'"viewcount":(.*?),',content,True) </li><li> views = views.replace('"','') </li><li> return views </li><li></li><li> #从网页内容中爬取点击量 </li><li> def gripViewsFromData(self,data): </li><li> views = Tools.getFromPatten(u'已经有<.*?>(.*?)<.*?>次观看',data,True) </li><li> return views </li><li></li><li> def gripBaseDir(self,data): </li><li> dir = Tools.getFromPatten(u"base_dir = '(.*?)'",data,True) </li><li> return dir </li><li></li><li> #抓取数据</li><li> def gripinfo(self,url): </li><li></li><li> try: </li><li> data = self.pageGripper.getPageInfo(url) </li><li> except: </li><li> Tools.writelog ("error", url+" 抓取失败") </li><li> raise</li><li></li><li> Tools.writelog('info','开始内容匹配') </li><li> rst = {} </li><li> rst['title'] = self.griptitle(data) </li><li> rst['channel'] = self.gripchannel(data) </li><li> rst['tag'] = self.griptag(data) </li><li> rst['release'] = self.griptime(data) </li><li> rst['user'] = self.gripuser(data) </li><li> ccdata = self.getCCData(data) </li><li> rst['ccsiteId'] = ccdata[0] </li><li> rst['ccVid'] = ccdata[1] </li><li> views = self.gripViewsFromData(data) </li><li> if views =="" or not views: </li><li> vid = self.gripVideoId(data) </li><li> basedir = self.gripBaseDir(data) </li><li> views = self.gripViewsAjax(vid,url,basedir) </li><li> if( views == "" ): </li><li> views = "error"</li><li> if( views == "error"): </li><li> Tools.writelog("error","获取观看次数失败") </li><li> Tools.writelog("debug","点击量:"+views) </li><li> rst['views'] = views </li><li> Tools.writelog('debug','title=%s,channel=%s,tag=%s'%(rst['title'],rst['channel'],rst['tag'])) </li><li> return rst </li><li></li><li>'''''</li><li>单元测试</li><li>'''</li><li>if __name__ == '__main__': </li><li> list = [ </li><li> 'http://008yx.com/xbsp/index.php/video/index/3138', </li><li> 'http://vblog.xwhb.com/index.php/video/index/4067', </li><li> 'http://demo.ccvms.bokecc.com/index.php/video/index/3968', </li><li> 'http://vlog.cnhubei.com/wuhan/20100912_56145.html', </li><li> 'http://vlog.cnhubei.com/html/js/30271.html', </li><li> 'http://www.ddvtv.com/index.php/video/index/15', </li><li> 'http://boke.2500sz.com/index.php/video/index/60605', </li><li> 'http://video.zgkqw.com/index.php/video/index/334', </li><li> 'http://yule.hitmv.com/html/joke/27041.html', </li><li> 'http://www.ddvtv.com/index.php/video/index/11', </li><li> 'http://www.zgnyyy.com/index.php/video/index/700', </li><li> 'http://www.kdianshi.com/index.php/video/index/5330', </li><li> 'http://www.aoyatv.com/index.php/video/index/127', </li><li> 'http://v.ourracing.com/html/channel2/64.html', </li><li> 'http://v.zheye.net/index.php/video/index/93', </li><li> 'http://vblog.thmz.com/index.php/video/index/7616', </li><li> 'http://kdianshi.com/index.php/video/index/5330', </li><li> 'http://tv.seeyoueveryday.com/index.php/video/index/95146', </li><li> 'http://sp.zgyangzhi.com/html/ji/2.html', </li><li> 'http://www.xjapan.cc/index.php/video/index/146', </li><li> 'http://www.jojy.cn/vod/index.php/video/index/399', </li><li> 'http://v.cyzone.cn/index.php/video/index/99', </li><li> ] </li><li></li><li> list1 = ['http://192.168.25.7:8079/vinfoant/versionasdfdf'] </li><li></li><li> infoGripper = InfoGripper() </li><li> for url in list: </li><li> infoGripper.gripinfo(url) </li><li> del infoGripper </li></ol>WEB服务及任务调度[python] view plaincopy<ol><li>'''''</li><li>Created on 2010-9-15</li><li></li><li>@author: chenggong</li><li>'''</li><li># -*- coding: utf-8 -*-</li><li>import string,cgi,time </li><li>from os import curdir,sep </li><li>from BaseHTTPServer import BaseHTTPRequestHandler,HTTPServer </li><li>from InfoGripper import * </li><li>import re </li><li>import MySQLdb </li><li>import time </li><li>import threading </li><li>import urllib </li><li>import urllib2 </li><li></li><li>PORT = 8079</li><li>VERSION = 0.1</li><li>DBCHARSET = "utf8"</li><li>PARAMS = [ </li><li> 'callback', </li><li> 'sessionId', </li><li> 'retry', </li><li> 'retryInterval', </li><li> 'dbhost', </li><li> 'dbport', </li><li> 'db', </li><li> 'dbuser', </li><li> 'dbpass', </li><li> 'videoId'</li><li> ] </li><li></li><li>DBMAP = ['video_id', </li><li> 'ccsiteid', </li><li> 'ccvid', </li><li> 'desc_url', </li><li> 'site_id', </li><li> 'title', </li><li> 'post_time', </li><li> 'author', </li><li> 'elapse', </li><li> 'channel', </li><li> 'tags', </li><li> 'create_time', </li><li> 'check_time', </li><li> 'status'] </li><li></li><li>'''''</li><li>ERROR CODE定义</li><li>'''</li><li>ERR_OK = 0</li><li>ERR_PARAM = 1</li><li>ERR_HTTP_TIMEOUT = 5</li><li>ERR_HTTP_STATUS = 6</li><li>ERR_DB_CONNECT_FAIL = 8</li><li>ERR_DB_SQL_FAIL = 9</li><li>ERR_GRIPVIEW = 11</li><li>ERR_UNKNOW = 12</li><li></li><li>'''''</li><li>数据库适配器</li><li>'''</li><li>class DBAdapter(object): </li><li></li><li> def __init__(self): </li><li> self.param = {'ip':'', </li><li> 'port':0, </li><li> 'user':'', </li><li> 'pw':'', </li><li> 'db':''} </li><li> self.connect_once = False #是否连接过数据库</li><li></li><li> '''''</li><li> 创建/更新数据库连接池</li><li> '''</li><li> def connect(self,ip,port,user,pw,db): </li><li> if( ip != self.param['ip'] or</li><li> port != self.param['port'] or</li><li> user != self.param['user'] or</li><li> pw != self.param['pw'] or</li><li> db != self.param['db']): </li><li> Tools.writelog('info','更换数据库连接池,ip='+ip+',port='+port+',user='+user+',pw='+pw+',db='+db) </li><li> try: </li><li> if self.connect_once == True: #释放上次连接</li><li> self.cur.close() </li><li> self.conn.close() </li><li> self.conn=MySQLdb.connect(user=user,passwd=pw,db=db,host=ip,port=int(port)) </li><li> self.conn.set_character_set(DBCHARSET) </li><li> self.connect_once = True</li><li> self.cur=self.conn.cursor(MySQLdb.cursors.Cursor) </li><li> self.param['ip'] = ip </li><li> self.param['port'] = port </li><li> self.param['user'] = user </li><li> self.param['pw'] = pw </li><li> self.param['db'] = db </li><li> except: </li><li> Tools.writelog('error',u'数据库连接失败',True) </li><li> raise</li><li> else: </li><li> Tools.writelog('info',u'数据库连接成功') </li><li></li><li> '''''</li><li> 执行SQL语句</li><li> '''</li><li> def execute(self,sql): </li><li> Tools.writelog('debug',u'执行SQL: '+sql) </li><li> try: </li><li> self.cur.execute(sql) </li><li> except: </li><li> Tools.writelog('error',u'SQL执行错误:'+sql) </li><li> raise</li><li></li><li> '''''</li><li> 查询数据库</li><li> '''</li><li> def query(self,sql): </li><li> row = {} </li><li> self.execute(sql) </li><li> row=self.cur.fetchall() </li><li> return row </li><li></li><li> '''''</li><li> 视频错误</li><li> '''</li><li> def updateErr(self,videoId): </li><li> nowtime = time.strftime('%Y-%m-%d-%H-%M-%S',time.localtime(time.time())) </li><li> sql = "UPDATE videos SET "</li><li> sql += "check_time='" + nowtime +"',"</li><li> sql += "status=-1 "</li><li> sql += "WHERE video_id="+videoId </li><li> self.execute(sql) </li><li> self.conn.commit() </li><li></li><li> '''''</li><li> 更新查询结果</li><li> '''</li><li> def update(self,obj,videoId,isUpdateTitle=True): </li><li></li><li> Tools.writelog('debug','开始更新数据库') </li><li> try: </li><li> #更新video表</li><li> sql = "UPDATE videos SET "</li><li> if(obj['ccsiteId'] !="" ): </li><li> sql += "ccsiteid='" + obj['ccsiteId'] + "'," </li><li> if(obj['ccVid'] != "" ): </li><li> sql += "ccvid='" + obj['ccVid'] + "'," </li><li> if isUpdateTitle: </li><li> sql += "title='" + obj['title'] + "'," </li><li> sql += "post_time='" + obj['release'] + "'," </li><li> sql += "author='" + obj['user'] + "'," </li><li> sql += "channel='" + obj['channel'] + "'," </li><li> sql += "tags='" + obj['tag'] + "'," </li><li> nowtime = time.strftime('%Y-%m-%d-%H-%M-%S',time.localtime(time.time())) </li><li> sql += "check_time='" + nowtime +"',"</li><li> sql += "status=0 "</li><li> sql += "WHERE video_id="+videoId </li><li></li><li> self.execute(sql) </li><li></li><li> #更新count表</li><li> if( obj['views'] != 'error' ): </li><li> nowdate = time.strftime('%Y-%m-%d',time.localtime(time.time())) </li><li> sql = "SELECT * FROM counts WHERE "</li><li> sql += "date = '" + nowdate + "' and video_id=" + videoId </li><li> rst = self.query(sql) </li><li> if len(rst) > 0:#如果当天已有记录，则更新</li><li> sql = "UPDATE counts SET count="+obj['views'] </li><li> sql +=" WHERE video_id=" + videoId + " AND date='" + nowdate+ "'"</li><li> else:#否则插入</li><li> sql = "INSERT INTO counts VALUES"</li><li> sql += "(null," +videoId+",'"+nowdate+"',"+obj['views'] + ")"</li><li> self.execute(sql) </li><li> 新闻标题：python中怎么实现分布式抓取网页 文章出自：<a href="http://scgulin.cn/article/ijgchi.html">http://scgulin.cn/article/ijgchi.html</a> </div> <div class="hot_new"> <div class="page_title clearfix"> <h3>其他资讯</h3> </div> <div class="news_list clearfix"> <ul> <li> <a href="/article/diciioh.html">linux卸载包命令 linux卸载安装包命令</a> </li><li> <a href="/article/diciish.html">天籁电脑版故障(天籁2.0t 故障)</a> </li><li> <a href="/article/diciiio.html">iOS杜比音效开发杜比音效 apple</a> </li><li> <a href="/article/diciicp.html">android路由分组 android 路由实现原理</a> </li><li> <a href="/article/diciiso.html">天籁气囊电脑内部故障(17年天籁气囊电脑在哪个位置)</a> </li> </ul> </div> </div> </div> </div> </div> </div> </div> </div> </div> </div> </div> </div> </div>  <div class="footer wow fadeInUp"> <div class="rowFluid"> <div class="span12"> <div class="container"> <div class="footer_content"> <div class="span4 col-xm-12"> <div class="footer_list"> <div class="span6"> <div class="bottom_logo"><img src="/Public/Home/images/ewm.jpg" alt="微信服务号二维码" /></div> </div> <div class="span6 col-xm-12"> <div class="quick_navigation"> <div class="quick_navigation_title">快速导航</div> <ul> <li><a href="http://www.ytwzsj.com/" title="帝美豪门窗" target="_blank">帝美豪门窗</a></li><li><a href="https://www.cdcxhl.com/ssl/chengdu.html" title="成都申请ssl证书" target="_blank">成都申请ssl证书</a></li><li><a href="http://seo.cdkjz.cn/quanwang/" title="全网营销" target="_blank">全网营销</a></li><li><a href="http://www.emts.com.cn/about/" title="德阳东方电机技改服务有限公司" target="_blank">德阳东方电机技改服务有限公司</a></li><li><a href="http://www.lbtgc.cn/" title="力比特工程" target="_blank">力比特工程</a></li><li><a href="http://www.cdxwcx.cn/tuoguan/xiyun.html" title="成都移动托管" target="_blank">成都移动托管</a></li><li><a href="http://www.muyebzx.com/" title="木业包装箱" target="_blank">木业包装箱</a></li> </ul> </div> </div> </div> </div> <div class="span4 col-xm-6 col-xs-12"> <div class="footer_list"> <div class="footer_link"> <div class="footer_link_title">友情链接</div> <ul id="frientLinks"> <a href="https://www.cdcxhl.com/" title="网站制作" target="_blank">网站制作</a> <a href="https://www.cdcxhl.com/" title="网站建设" target="_blank">网站建设</a> <a href="https://www.cdxwcx.com/tuiguang/" title="成都网络推广" target="_blank">网络推广</a> <a href="http://seo.cdkjz.cn/" title="成都网站推广" target="_blank">网站推广</a> <a href="https://www.cdcxhl.com/xiaochengx.html" title="成都微信小程序开发" target="_blank">小程序开发</a> <a href="https://www.cdcxhl.com/menu.html" title="创新互联网站栏目导航" target="_blank">网站导航</a> </ul> <div class="footer_link_title">网站建设</div> <ul id="frientLinks"> <li><a href="/">古蔺大橙子建站</a></li> <li><a href="https://www.cdcxhl.com/menu.html" title="创新互联网站栏目导航" target="_blank">网站导航</a></li> </ul> </div> </div> </div> <div class="span4 col-xm-6 col-xs-12"> <div class="footer_list"> <div class="footer_cotact"> <div class="footer_cotact_title">联系方式</div> <ul> <li>企业：青羊区大橙子信息咨询工作室</li> <li>地址：成都市青羊区太升南路288号</li> <li>电话：<a href="tel:18980820575" class="call">18980820575</a></li> <li>网址：<a href="/" title="古蔺网站建设">www.scgulin.cn</a></li> </ul> </div> </div> </div> </div> </div> <div class="copyright"> 公司名称：青羊区大橙子信息咨询工作室联系电话：18980820575 <a href="http://beian.miit.gov.cn" target="_blank" rel="nofollow">网站备案号：蜀ICP备2022028542号-27</a> 古蔺大橙子建站古蔺网站建设古蔺网站设计古蔺网站制作 <a href="http://www.cdxwcx.cn/" target="_blank">成都做网站</a> </div> </div> </div> </div> </body> </html> <script> $(".technical_support_box_z_info_box img").each(function(){ var src = $(this).attr("src"); //获取图片地址 var str=new RegExp("http"); var result=str.test(src); if(result==false){ var url = "https://www.cdcxhl.com"+src; //绝对路径 $(this).attr("src",url); } }); window.onload=function(){ document.oncontextmenu=function(){ return false; } } </script>

新闻中心

(.*?)