-
效果圖
(界面有點丑,將就看吧。。。)
序
- 這類公用資源網站,在你需要翻譯的時候,需要的是進入他們的網站進行操作,大批量的翻譯,同樣的是需要調用他們的接口,收費。。。
- 這個時候我們想用他們的數據庫來獲得自己的需求,在我進行的分析的時候,有道翻譯問題還是在他們的有些表單數據是進行js加密操作的,不能直接請求數據!
- 得,直接進入主題吧。
正
- 首先我們正常的爬蟲程序,就是在導包后,填入真正的url地址去訪問;
-
進入有道翻譯網頁按F12進入開發者模式,找到存在真正url地址的包,輸入翻譯詞匯,后如下圖:
流程1 -
找到真實url,同時data表單數據也在下面:
流程2 - 我們會發現,i其實是我們輸入的翻譯詞匯,這里還有三處數據很關鍵,分別是salt、ts、sign,都是進行加密的數據(難不倒我們,往下看!)
- 所以我們進行的是post隱式請求!!!
-
開始逆向js查找數據加密的地方,那我們查找salt,會得到一串js,在進行美化一下:
流程3 -
再在這里面搜索salt,會得到很多處都有salt
流程4 - 在查找的過程中花費一段時間哈。。。
-
直接跳了,找到如下圖:
流程5 - 在第4處這個地方!
- 就可以清楚的看到加密數據是怎么傳遞生成的,分別是salt、ts、sign!
- 到這里,我們獲得了url、headers、表單數據及其中的加密數據!
- 同時,我們對程序進行GUI界面化,更加直觀,再打包!
代碼
import requests,time,random,hashlib,json
from tkinter import *
from tkinter import messagebox
# 界面控制
def fanyi():
text = entry.get()
text = text.strip()
print(text)
if text == '':
messagebox.showinfo('提示:','請輸入')
else:
result,result_detail = parse(text)
# 進行界面排版
theLabel = Label(room, text='翻譯:'+'\n'+result+'\n'+'\n'+'詳細翻譯:'+'\n'+result_detail, font= ('黑體',15), fg='red')
theLabel.grid(row=1, column=1)
# 翻譯結果返回
def parse(text):
# 網址
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
# 逆向js解析表單數據
ts = str(int(time.time()*1000))
salt = ts + str(random.randint(0, 10))
# md5加密
md5 = hashlib.md5()
encryption = 'fanyideskweb' + text + salt + "n%A-rKaT5fb[Gy?;N5@Tj"
md5.update(encryption.encode("utf-8"))
sign = md5.hexdigest()
# 表單
data = {
'i': text,
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': salt,
'sign': sign,
'ts': ts,
'bv': '7e3150ecbdf9de52dc355751b074cf60',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_CLICKBUTTION'
}
# 請求headers
headers = {
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,zh-HK;q=0.7,zh-TW;q=0.6',
'Connection': 'keep-alive',
'Content-Length': '242',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Cookie': 'OUTFOX_SEARCH_USER_ID_NCOO=101631173.1664094; OUTFOX_SEARCH_USER_ID="1817802748@10.169.0.84"; _ntes_nnid=c5aaa2bceb9489aff9a93944a0e70db5,1564971812601; JSESSIONID=aaaXCWGeXbuZff2fbSgZw; ___rl__test__cookies=1566701790595',
'Host': 'fanyi.youdao.com',
'Origin': 'http://fanyi.youdao.com',
'Referer': 'http://fanyi.youdao.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest',
}
request = requests.post(url=url,data=data,headers=headers)
details = request.text
'''
# json字符串
<class 'str'>
{"translateResult":[[{"tgt":"你好","src":"hello"}]],"errorCode":0,"type":"en2zh-CHS",
"smartResult":{"entries":["","n. 表示問候, 驚奇或喚起注意時的用語\r\n","int. 喂;哈羅\r\n","n. (Hello)人名;(法)埃洛\r\n"],"type":1}}
'''
translateResult = json.loads(details)
result = translateResult["translateResult"][0][0]['tgt']
# print('翻譯:', translateResult["translateResult"][0][0]['tgt'])
# print('詳細翻譯:',''.join(translateResult["smartResult"]["entries"]))
try:
result_detail = ''.join(translateResult["smartResult"]["entries"])
except:
result_detail = '無詳細翻譯!'
return result,result_detail
room = Tk()
room.title("翻譯")
room.geometry('800x300+500+300')
label = Label(room, text = '輸入', font= ('黑體',25), fg='black')
label.grid()
entry = Entry(room, font = ('微軟雅黑',20))
entry.grid(row= 0, column=1)
button = Button(room,text = '進行翻譯', font=('微軟雅黑',20), command= fanyi)
button.grid(row= 0, column=2)
room.mainloop()
#打包命令:pyinstaller -F -i gg.ico youdao.py
- 打包成exe可執行文件命令:pyinstaller -F -i gg.ico youdao.py
注意
- 最后返回來的數據是json字符串。。。
不要溫順的走進那良夜