<td align="left">工商管理<br>市場營銷<br>財務(wù)管理<br>人力資源管理<br>電子商務(wù)</td>
今天爬頁面的時候遇到這種結(jié)構(gòu)的,要求把每一個分開,最開始直接用text()
發(fā)現(xiàn)取出來的在一起,不能分開。
于是采用了一種折中的方法:用正則
';'.join((''.join(tr.xpath('td[5]').re('<td align="left">(.*?)</td>'))).split('<br>'))
有更好的方法,歡迎大家評論討論