English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Python 스파이더: 키워드를 통해 구글 이미지를 크롤링

도구: Python2.7 여기를 클릭하여 다운로드

scrapy 프레임워크

sublime text3

1. python(윈도우 버전) 구축

 1. python 설치2.7 ---그런 다음 cmd에서 python을 입력하면 인터페이스가 다음과 같으면 설치가 완료되었습니다

 2. Scrapy 프레임워크 통합----명령 줄에 명령어를 입력하십시오: pip install Scrapy

성공된 인터페이스는 다음과 같습니다:

실패의 경우가 많습니다. 예를 들어:

해결 방법:

그 외의 오류는 바aidu에서 검색할 수 있습니다.

2. 프로그래밍 시작.

1. 스크레이퍼 방지 조치가 없는 정적 웹 사이트를 크롤링합니다. 예를 들어, 백도어, 도서문고.

예를 들어-《대시 보드》의 하나의 포스트https://tieba.baidu.com/p/2460150866?red_tag=3569129009

python 코드는 다음과 같습니다:

코드 주석: urllib, re 두 모듈을 도입했습니다. 첫 번째 함수는 전체 목표 웹 페이지 데이터를 가져오고, 두 번째 함수는 목표 웹 페이지에서 목표 이미지를 가져오며, 웹 페이지를 순회하며 가져온 이미지를 0부터 정렬합니다.

주의: re 모듈 개념:

爬取图片效果图:

图片保存路径默认在建立的.py同目录文件下。

2.爬取有反爬虫措施的百度图片。如百度图片等。

例如关键字搜索“表情包”https://image.baidu.com/search/index#63;tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

图片采用滚动式加载,先爬取最优先的30张。

代码如下:

代码注释:导入4个模块,os模块用于指定保存路径。前两个函数同上。第三个函数使用了if语句,并tryException异常。

抓取过程如下:

抓取结果:

주의: Python 코드 작성 시 정렬에 주의하고, and는 Tab과 공백을 혼용하지 마세요. 오류가 발생할 수 있습니다.

이것이 본 강의의 전체 내용입니다. 본 강의의 내용이 여러분의 학습이나 업무에 도움이 되길 바랍니다. 또한, 나아가 지지해 주셔서 감사합니다!

언급: 본 내용은 인터넷에서 수집되었으며, 저작권자는 본 사이트에 소유되지 않으며, 인터넷 사용자가 자발적으로 기여하고 업로드한 내용입니다. 본 사이트는 저작권을 소유하지 않으며, 인공적인 편집 처리를 하지 않으며, 관련 법적 책임을 부담하지 않습니다. 저작권 침해 내용을 발견하면 notice#w로 이메일을 보내 주세요.3주의: codebox.com에 대한 신고를 위해 #을 @으로 변경하고, 관련 증거를 제공하십시오. 사실을 확인하면 해당 사이트는 즉시 저작권 침해 내용을 삭제합니다.

추천해드립니다