Python이 웹 페이지에서 횡단 링크를 추출하는 방법

가장 간단한 구현 방법은, 먼저 목표 웹 페이지를 잡아들이고, 그 뒤에 a 태그의 href 속성을 정규 표현식으로 매칭하여 URL을 얻는 것입니다

코드는 다음과 같습니다：

import urllib2
import re
url = 'http://www.sunbloger.com/'
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

이 글의 모든 내용이 끝입니다. 이 글의 내용이 여러분의 학습이나 업무에 도움이 되길 바랍니다. 의문이 있으시면 댓글을 남겨 주세요.