분류 전체보기
-
(4) 픽사베이 이미지 크롤링크롤링 2023. 7. 9. 16:53
1. 이미지 수집하기 [픽사베이] https://pixabay.com/ko/ import chromedriver_autoinstaller import time from selenium import webdriver from selenium.webdriver.common.by import By from urllib.request import Request, urlopen driver = webdriver.Chrome() driver.implicitly_wait(3) url = 'https://pixabay.com/ko/images/search/%eb%b0%94%eb%8b%a4/?order=ec' driver.get(url) time.sleep(3) image_xpath = '/html/body/div[1]..
-
(3) 인스타그램 크롤링크롤링 2023. 7. 9. 16:48
# 인스타그램을 들어가서 아이디 비밀번호를 입력후 로그인을 할 수 있다. from selenium import webdriver import time import chromedriver_autoinstaller from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.implicitly_wait(3) url = 'https://www.instagram.com/' driver.get(url) id = 아이디 pw = 비밀버노 input_id = driver.find_element(By.XPATH, '/html/body/div[2]/div/div/div[1]/div/div/div/div[1]/section/main/artic..
-
(2) 셀레니움크롤링 2023. 7. 9. 16:44
1. 셀레니움(Selenium) 셀레니움은 브라우저를 컨트롤 할 수 있도록 지원하는 라이브러리 # 셀레니움을 쓰기 위해 다운을 받아준다 !pip install selenium 크롬브라우저를 사용하기위해 다운로드 !pip install chromedriver_autoinstaller from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs driver = webdriver.Chrome() driver.get('https://www.google.com/') search = driver.find_element('name','q') search.send_keys('..
-
(1) 크롤링크롤링 2023. 6. 18. 22:02
크롤링(Crawling): 인터넷의 데이터를 활용하기 위해 정보들을 분석하고 활용할 수 있도록 수집하는 행위 스크레이핑(Scraping): 크롤링 + 데이터를 추출해서 가공하는 최종 목표 1. Basic English Speaking import requests from bs4 import BeautifulSoup as bs site = 'https://basicenglishspeaking.com/daily-english-conversation-topics/' request = requests.get(site) print(request) # print(request.text) soup = BeautifulSoup(request.text) divs = soup.find('div', {'class':'thr..
-
(13) 데이터분석_떡볶이집의 입점전략데이터분석 2023. 6. 18. 21:19
떡볶이집의 입점전략 데이터분석 # 시장 데이터를 불러온다. import pandas as pd df = pd.read_csv('/content/drive/MyDrive/study/데이터분석/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv') shop = ['엽기떡볶이', '신전떡볶이','죠스떡볶이','국대떡볶이', '감탄떡볶이'] # 파리바게트 데이터 필터링하기 # df_paris # '상가업소번호', '경도', '위도' # contains(): 특정 문자열 포함여부를 True False로 반환 cont1 = df['상호명'].str.contains(r'파리바게뜨|파리바게트') df_paris = df.loc[cont1, [..
-
(12) 데이터분석_스타벅스 API를 이용한 프로젝트데이터분석 2023. 6. 15. 17:23
사용하기 위한것들을 import를 한다. import requests import folium import json from pandas.io.json import json_normalize import warnings warnings.filterwarnings('ignore') targetSite = 'https://www.starbucks.co.kr/store/getSidoList.do' request = requests.post(targetSite) print(request) print(request.text) star_json = json.loads(request.text) print(star_json) print(len(star_json['list'])) sido_list = dict() for..
-
(11) 데이터분석_따릉이 API를 이용한 프로젝트데이터분석 2023. 6. 15. 17:09
1. API(Application Programming Interface) 여러 프로그램들과 데이터베이스, 여러 기능들의 상호 통신 방법을 정하고 도와주는 매개체 2. 따릉이 API 접속하기 import requests import folium import json from pandas.io.json import json_normalize import warnings warnings.filterwarnings('ignore') targetSite = 'https://www.bikeseoul.com/app/station/getStationRealtimeStatus.do' request = requests.post(targetSite, data={'stationGrpSeq' : 'ALL'}) print(re..
-
(10) 데이터분석_전국 도시공원 데이터 프로젝트데이터분석 2023. 6. 15. 16:44
각 명령어를 사용하기 위해 import를 시켜준다 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns csv파일을 읽어온다. park = pd.read_csv('/content/drive/MyDrive/study/데이터분석/전국도시공원표준데이터 (1).csv', encoding = 'ms949') park.head() 그래프에 한글을 적기위한 코드이다 나눔체를 넣어준다. !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf plt.rc('font', fam..