본문 바로가기
💻 Side project/Web

[Web] 파이썬 이미지 크롤링 웹 스크래핑 하는법

by 개발한 너굴씨 2023. 5. 17.
728x90

 

 

 

 

구글 코랩을 이용해서 웹 스크래핑 하는법 

 

 

환경 설정

 

아래 링크를 통해 구글 코랩 접속

https://colab.research.google.com/?hl=ko

 

Google Colaboratory

 

colab.research.google.com

파일 -> 새 노트

 

구글 코랩 환경

 

 

구글 코랩 사용법 

 

좌 상단의 +코드를 누르면 새로운 코드블록이 생성된다 

실행은 위의 재생 버튼을 누르면 된다

 

 

 

실행 코드

 

bing 이미지 다운로더 라이브러리 설치 

!pip install bing-image-downloader

!를 붙이지 않으면 오류 메시지가 뜬다 

같은 블록 안에 코드를 추가하면 오류가 발생할 수 있으니

+코드를 눌러 새로운 블록을 만들고 다음 코드를 실행해야 한다

 

from bing_image_downloader import downloader  # bing_image_downloader 모듈에서 downloader를 가져옴
from pathlib import Path  # pathlib 모듈에서 Path를 가져옴

def download_images(keyword, num_images, file_name):
    output_directory = "images"  # 이미지를 저장할 폴더 이름

    downloader.download(keyword, limit=num_images, output_dir=output_directory, adult_filter_off=True, force_replace=False, timeout=60)  # 이미지 다운로드

    root = Path().cwd() / output_directory  # 이미지 저장 폴더의 경로
    downloaded_files = list(root.glob("*.*"))  # 폴더 내 모든 파일 가져오기
    for i, file in enumerate(downloaded_files):  # 다운로드된 각 파일에 대해 반복
        extension = file.suffix  # 파일 확장자
        new_file_name = f"{file_name}{i+1}{extension}"  # 새로운 파일 이름
        new_file_path = root / new_file_name  # 새로운 파일 경로
        file.rename(new_file_path)  # 파일 이름 변경

# 사용 예시
keyword = "파이썬 로고"  # 이미지 검색 키워드
num_images = 30  # 다운로드할 이미지 수
file_name = "파이썬"  # 파일 이름

download_images(keyword, num_images, file_name)  # 이미지 다운로드

 

 

이미지 압축하기 

import shutil

def compress_folder(folder_path, output_path):
    shutil.make_archive(output_path, 'zip', folder_path)

# 이미지 저장 폴더 압축
folder_path = "images"
output_path = "images"
compress_folder(folder_path, output_path)

 

다운로드 

 

압축된 폴더 파일 우클릭 -> 다운로드 

728x90

댓글