說(shuō)明:如果你是Python小白,爬蟲(chóng)小白,覺(jué)得本節課程的代碼晦澀難懂。沒(méi)關(guān)系,不需要懂,按照步驟一步步操作就可以了。這一節我們主要是搭框架,幾乎沒(méi)有真正的爬蟲(chóng)代碼。這些代碼和操作,你可能一生也就只用這一次。下一節,我們再講述怎么在這個(gè)框架上擴展我們的爬蟲(chóng)程序。
需要的操作:
微信公眾賬號的申請。
微信接口的獲取,SAE的設置等。
簡(jiǎn)單的Python爬蟲(chóng)代碼編寫(xiě)
需掌握的知識點(diǎn):
了解微信公眾號與云計算平臺之間的連接關(guān)系。明確其運行機制。
了解web.py的概念,wsgi的機制。
了解簡(jiǎn)單的python爬蟲(chóng)知識,json解析,API調用,urllib庫函數。
自動(dòng)回復實(shí)現原理
首先了解一下,到底是什么樣的機制能實(shí)現微信的自動(dòng)回復功能呢?(不是微信系統的自動(dòng)回復)原理就是微信平臺將用戶(hù)輸入的文字發(fā)送到云平臺上,然后云平臺上運行的程序捕捉到這一文字信息,就return一個(gè)結果,然后云平臺再將該結果返回至微信平臺。最后微信平臺將返回的結果展現給用戶(hù)。用一張圖表示一下:
微信開(kāi)發(fā)者模式與SAE的設置
這一節我盡量講的細致一些,如果仍有不清楚的,可以私信我。
首先需要兩大平臺支持:
微信公眾平臺;這個(gè)申請比較簡(jiǎn)單。只要有郵箱就可以免費申請個(gè)人版的訂閱號。不再贅述。
云計算平臺;我這里使用的SAE(新浪的去年本來(lái)就不收費,坑爹,今年開(kāi)始收費了,單純代碼托管最低一天1毛),也可以用騰訊云。
具體步驟:
微信公眾號的申請。
只要有郵箱就可以免費申請個(gè)人版的訂閱號。不再贅述。
SAE的申請及設置
注冊登錄SAE之后,選用SAE
創(chuàng )建新項目,SAE暫時(shí)只支持Python2.7,Python3暫時(shí)用不了。
如果項目比較小,建議填寫(xiě)SVN,因為可以在線(xiàn)編輯。如果項目比較大,就Git吧。這里選用SVN。
創(chuàng )建第一個(gè)版本

可以開(kāi)始編輯啦~

編寫(xiě)config.yaml和index.wsgi文件。
WSGI是PythonWeb服務(wù)器網(wǎng)關(guān)接口(Python Web Server Gateway Interface)。我們使用的是web.py框架。同類(lèi)型比較強大的框架有Django,Flask等。為什么選用web.py呢,是因為它是輕量級的,而且有著(zhù)良好的xml解析功能。插句題外話(huà),web.py的開(kāi)發(fā)者AaronH. Swartz是個(gè)十足的天才,可惜英年早逝。有個(gè)關(guān)于他的一部紀錄片,推薦看一下:互聯(lián)網(wǎng)之子。
好了,言歸正傳,我們首先編寫(xiě)config.yaml
name: pifuhandashuversion: 1libraries:- name: webpy version: '0.36'- name: lxml version: '2.3.4'...這里我們引入了web.py框架以及l(fā)xml模塊,接著(zhù)我們編寫(xiě)index.wsgi文件。
# coding: utf-8import osimport saeimport webfrom weixinInterface import WeixinInterfaceurls = ('/weixin','WeixinInterface')app_root = os.path.dirname(__file__)templates_root = os.path.join(app_root, 'templates')render = web.template.render(templates_root)app = web.application(urls, globals()).wsgifunc() application = sae.create_wsgi_app(app)這里就是簡(jiǎn)單的python利用web.py網(wǎng)頁(yè)開(kāi)發(fā)的知識了。設置了根目錄,模板目錄,/weixin的路由,開(kāi)啟應用。
為了使頁(yè)面顯得更整潔,我們再新建了一個(gè)py文件weixinInterface.py(weixinInterface.py和index.wsgi在同一級目錄,見(jiàn)后面的截圖)。
編輯weixinInterface.py,大小寫(xiě)一定要看清啊,不然很容易出錯。注意自己填寫(xiě)一個(gè)專(zhuān)屬的token,這個(gè)等會(huì )微信公眾號設置里面有用到。
# -*- coding: utf-8 -*-import hashlibimport webimport lxmlimport timeimport osimport urllib2,jsonfrom lxml import etreeclass WeixinInterface: def __init__(self): self.app_root = os.path.dirname(__file__) self.templates_root = os.path.join(self.app_root, 'templates') self.render = web.template.render(self.templates_root) def GET(self): #獲取輸入參數 data = web.input() signature = data.signature timestamp = data.timestamp nonce = data.nonce echostr = data.echostr #自己的token token = 'XXXXXXXXXXX' #注意:填寫(xiě)之后在微信公眾平臺里輸入的token?。?! #字典序排序 list = [token, timestamp, nonce] list.sort() sha1 = hashlib.sha1() map(sha1.update,list) hashcode = sha1.hexdigest() #sha1加密算法 #如果是來(lái)自微信的請求,則回復echostr if hashcode == signature: return echostr代碼大致講解一下,def __init__(self)是告訴我們模板文件的加載位置。 def GET(self)是應微信公眾平臺的要求,進(jìn)行的token驗證。這里的驗證采用的是哈希算法。具體可參考微信官方的接口接入說(shuō)明:微信公眾平臺接入指南。里面有個(gè)php示例。本文采用的是python實(shí)現。

微信開(kāi)發(fā)者模式設置
基本設置


修改配置

URL一定要認真填寫(xiě),仔細核對。
比如查看url應用信息:


token填寫(xiě)剛才新浪SAE里面填寫(xiě)的token,一定要一致。EncodingAESKey可以隨機生成。填完之后點(diǎn)擊提交。如果提示“提交成功”。恭喜你,最關(guān)鍵的一步已經(jīng)完成了。這個(gè)階段可能要折騰蠻長(cháng)時(shí)間。完成之后,一定要啟用開(kāi)發(fā)者模式?。。?!切記?。?!
微信機器人實(shí)現
上一步完成之后,我們就可以做一些有趣的事情:微信機器人。不過(guò)在此之前,還要完成一小步:模板的創(chuàng )建。由于微信開(kāi)發(fā)是采用的xml的形式。為了先實(shí)現文本形式自動(dòng)回復(后面可以實(shí)現回復音頻,圖文信息等形式),首先新建模板文件夾templates,然后在templates文件夾下創(chuàng )建reply_text.xml文件(文件放置位置見(jiàn)后面的截圖)。根據微信消息被動(dòng)回復所示,填入以下代碼:
$def with (toUser,fromUser,createTime,content)<xml><ToUserName><![CDATA[$toUser]]></ToUserName><FromUserName><![CDATA[$fromUser]]></FromUserName><CreateTime>$createTime</CreateTime><MsgType><![CDATA[text]]></MsgType><Content>$content</Content></xml>然后,在weixinInterface.py里的def GET(self)后面編寫(xiě)POST函數。該函數用來(lái)獲取用戶(hù)的ID,發(fā)送的消息類(lèi)型,發(fā)送的時(shí)間等。判斷用戶(hù)發(fā)送的消息類(lèi)型,如果是純文本類(lèi)型,if mstype == 'text',那么可以進(jìn)行下一步操作。
def POST(self): str_xml = web.data() #獲得post來(lái)的數據 xml = etree.fromstring(str_xml)#進(jìn)行XML解析 mstype = xml.find('MsgType').text#消息類(lèi)型 fromUser = xml.find('FromUserName').text toUser = xml.find('ToUserName').text
為了實(shí)現微信機器人,我們需要實(shí)現自動(dòng)回復的內容。這里有兩種方式。
爬取網(wǎng)上的機器人回復的內容,比如找不到小黃雞的接口,我就自己爬蟲(chóng)爬取它的回復結果。
調用自動(dòng)能夠回復的機器人API。
這里我選用第二種方法,采用的是圖靈機器人的API。這種方法方便快捷,一般不會(huì )被墻。但是自由度不高,可拓展性差。
注冊圖靈機器人賬號,注意是采用圖靈的網(wǎng)頁(yè)api,而不是授權。獲取圖靈機器人回復的key。幾行代碼就可以搞定微信機器人自動(dòng)回復啦~
源碼展示
index.wsgi源碼
# coding: utf-8import osimport saeimport webfrom weixinInterface import WeixinInterfaceurls = ('/weixin','WeixinInterface',)app_root = os.path.dirname(__file__)templates_root = os.path.join(app_root, 'templates')render = web.template.render(templates_root)app = web.application(urls, globals()).wsgifunc() application = sae.create_wsgi_app(app)config.yaml源碼
name: myzhihuversion: 1libraries:- name: webpy version: '0.36'- name: lxml version: '2.3.4'...templates下的reply_text.xml源碼
$def with (toUser,fromUser,createTime,content)<xml><ToUserName><![CDATA[$toUser]]></ToUserName><FromUserName><![CDATA[$fromUser]]></FromUserName><CreateTime>$createTime</CreateTime><MsgType><![CDATA[text]]></MsgType><Content>$content</Content></xml>weixinInterface.py源碼
# -*- coding: utf-8 -*-import hashlibimport webimport lxmlimport timeimport osimport jsonimport urllibfrom lxml import etreeclass WeixinInterface: def __init__(self): self.app_root = os.path.dirname(__file__) self.templates_root = os.path.join(self.app_root, 'templates') self.render = web.template.render(self.templates_root) def GET(self): #獲取輸入參數 data = web.input() signature=data.signature timestamp=data.timestamp nonce=data.nonce echostr=data.echostr #自己的token token='################' #這里填寫(xiě)在微信公眾平臺里輸入的token #字典序排序 list=[token,timestamp,nonce] list.sort() sha1=hashlib.sha1() map(sha1.update,list) hashcode=sha1.hexdigest() #sha1加密算法 #如果是來(lái)自微信的請求,則回復echostr if hashcode == signature: return echostr def POST(self): str_xml = web.data() #獲得post來(lái)的數據 xml = etree.fromstring(str_xml)#進(jìn)行XML解析 mstype = xml.find('MsgType').text fromUser = xml.find('FromUserName').text toUser = xml.find('ToUserName').text if mstype == 'text': content = xml.find('Content').text#獲得用戶(hù)所輸入的內容 key = '#####################' ###圖靈機器人的key api = 'http://www.tuling123.com/openapi/api?key=' + key + '&info=' info = content.encode('UTF-8') url = api + info page = urllib.urlopen(url) html = page.read() dic_json = json.loads(html) reply_content = dic_json['text'] return self.render.reply_text(fromUser,toUser,int(time.time()),reply_content)
尾記
本次教程實(shí)現了利用Python開(kāi)發(fā)微信公眾平臺,能夠自動(dòng)回復用戶(hù)輸入的文字。包括了微信公眾平臺的設置,SAE的設置,相關(guān)代碼的編寫(xiě)等。
聯(lián)系客服