크롤링
-
(5) 지니 크롤링크롤링 2023. 7. 9. 17:00
# 지니 차트 200위 까지 크롤링 # 반복문을 사용하여 크롤링 # 수집한 데이터를 데이터프레임으로 만들고 # 엑셀로 출력 # 과제는 깃허브에 제출 import requests from bs4 import BeautifulSoup as bs import pandas as pd data = [] num = 1 for j in range(1,5): site = f'https://www.genie.co.kr/chart/top200?ditc=D&ymd=20230601&hh=13&rtm=Y&pg={j}' header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"} request = requests.get(site, headers=header) soup..
-
(4) 픽사베이 이미지 크롤링크롤링 2023. 7. 9. 16:53
1. 이미지 수집하기 [픽사베이] https://pixabay.com/ko/ import chromedriver_autoinstaller import time from selenium import webdriver from selenium.webdriver.common.by import By from urllib.request import Request, urlopen driver = webdriver.Chrome() driver.implicitly_wait(3) url = 'https://pixabay.com/ko/images/search/%eb%b0%94%eb%8b%a4/?order=ec' driver.get(url) time.sleep(3) image_xpath = '/html/body/div[1]..
-
(3) 인스타그램 크롤링크롤링 2023. 7. 9. 16:48
# 인스타그램을 들어가서 아이디 비밀번호를 입력후 로그인을 할 수 있다. from selenium import webdriver import time import chromedriver_autoinstaller from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.implicitly_wait(3) url = 'https://www.instagram.com/' driver.get(url) id = 아이디 pw = 비밀버노 input_id = driver.find_element(By.XPATH, '/html/body/div[2]/div/div/div[1]/div/div/div/div[1]/section/main/artic..
-
(2) 셀레니움크롤링 2023. 7. 9. 16:44
1. 셀레니움(Selenium) 셀레니움은 브라우저를 컨트롤 할 수 있도록 지원하는 라이브러리 # 셀레니움을 쓰기 위해 다운을 받아준다 !pip install selenium 크롬브라우저를 사용하기위해 다운로드 !pip install chromedriver_autoinstaller from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs driver = webdriver.Chrome() driver.get('https://www.google.com/') search = driver.find_element('name','q') search.send_keys('..
-
(1) 크롤링크롤링 2023. 6. 18. 22:02
크롤링(Crawling): 인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있도록 수집하는 행위 스크레이핑(Scraping): 크롤링 + 데이터를 추출해서 가공하는 최종 목표 1. Basic English Speaking import requests from bs4 import BeautifulSoup as bs site = 'https://basicenglishspeaking.com/daily-english-conversation-topics/' request = requests.get(site) print(request) # print(request.text) soup = BeautifulSoup(request.text) divs = soup.find('div', {'class':'thr..