728x90
구글 코랩을 이용해서 웹 스크래핑 하는법
환경 설정
아래 링크를 통해 구글 코랩 접속
https://colab.research.google.com/?hl=ko
파일 -> 새 노트
구글 코랩 사용법
좌 상단의 +코드를 누르면 새로운 코드블록이 생성된다
실행은 위의 재생 버튼을 누르면 된다
실행 코드
bing 이미지 다운로더 라이브러리 설치
!pip install bing-image-downloader
!를 붙이지 않으면 오류 메시지가 뜬다
같은 블록 안에 코드를 추가하면 오류가 발생할 수 있으니
+코드를 눌러 새로운 블록을 만들고 다음 코드를 실행해야 한다
from bing_image_downloader import downloader # bing_image_downloader 모듈에서 downloader를 가져옴
from pathlib import Path # pathlib 모듈에서 Path를 가져옴
def download_images(keyword, num_images, file_name):
output_directory = "images" # 이미지를 저장할 폴더 이름
downloader.download(keyword, limit=num_images, output_dir=output_directory, adult_filter_off=True, force_replace=False, timeout=60) # 이미지 다운로드
root = Path().cwd() / output_directory # 이미지 저장 폴더의 경로
downloaded_files = list(root.glob("*.*")) # 폴더 내 모든 파일 가져오기
for i, file in enumerate(downloaded_files): # 다운로드된 각 파일에 대해 반복
extension = file.suffix # 파일 확장자
new_file_name = f"{file_name}{i+1}{extension}" # 새로운 파일 이름
new_file_path = root / new_file_name # 새로운 파일 경로
file.rename(new_file_path) # 파일 이름 변경
# 사용 예시
keyword = "파이썬 로고" # 이미지 검색 키워드
num_images = 30 # 다운로드할 이미지 수
file_name = "파이썬" # 파일 이름
download_images(keyword, num_images, file_name) # 이미지 다운로드
이미지 압축하기
import shutil
def compress_folder(folder_path, output_path):
shutil.make_archive(output_path, 'zip', folder_path)
# 이미지 저장 폴더 압축
folder_path = "images"
output_path = "images"
compress_folder(folder_path, output_path)
다운로드
압축된 폴더 파일 우클릭 -> 다운로드
728x90
'💻 Side project > Web' 카테고리의 다른 글
[Web] 구름 ide 깃허브에 업로드 하기 (0) | 2023.06.16 |
---|---|
[Web] 색상 조합 추천 사이트 (0) | 2023.06.02 |
구글에 티스토리 블로그 노출하는 방법 (구글 서치 어드바이저) (0) | 2023.05.06 |
자체제작 사이트 사이트맵 등록 방법 (0) | 2023.05.06 |
네이버에 제작한 사이트 노출하는 방법 (네이버 서치 어드바이저) (0) | 2023.05.04 |
댓글