데이터분석
-
(13) 데이터분석_떡볶이집의 입점전략데이터분석 2023. 6. 18. 21:19
떡볶이집의 입점전략 데이터분석 # 시장 데이터를 불러온다. import pandas as pd df = pd.read_csv('/content/drive/MyDrive/study/데이터분석/소상공인시장진흥공단_상가(상권)정보_서울_202303.csv') shop = ['엽기떡볶이', '신전떡볶이','죠스떡볶이','국대떡볶이', '감탄떡볶이'] # 파리바게트 데이터 필터링하기 # df_paris # '상가업소번호', '경도', '위도' # contains(): 특정 문자열 포함여부를 True False로 반환 cont1 = df['상호명'].str.contains(r'파리바게뜨|파리바게트') df_paris = df.loc[cont1, [..
-
(12) 데이터분석_스타벅스 API를 이용한 프로젝트데이터분석 2023. 6. 15. 17:23
사용하기 위한것들을 import를 한다. import requests import folium import json from pandas.io.json import json_normalize import warnings warnings.filterwarnings('ignore') targetSite = 'https://www.starbucks.co.kr/store/getSidoList.do' request = requests.post(targetSite) print(request) print(request.text) star_json = json.loads(request.text) print(star_json) print(len(star_json['list'])) sido_list = dict() for..
-
(11) 데이터분석_따릉이 API를 이용한 프로젝트데이터분석 2023. 6. 15. 17:09
1. API(Application Programming Interface) 여러 프로그램들과 데이터베이스, 여러 기능들의 상호 통신 방법을 정하고 도와주는 매개체 2. 따릉이 API 접속하기 import requests import folium import json from pandas.io.json import json_normalize import warnings warnings.filterwarnings('ignore') targetSite = 'https://www.bikeseoul.com/app/station/getStationRealtimeStatus.do' request = requests.post(targetSite, data={'stationGrpSeq' : 'ALL'}) print(re..
-
(10) 데이터분석_전국 도시공원 데이터 프로젝트데이터분석 2023. 6. 15. 16:44
각 명령어를 사용하기 위해 import를 시켜준다 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns csv파일을 읽어온다. park = pd.read_csv('/content/drive/MyDrive/study/데이터분석/전국도시공원표준데이터 (1).csv', encoding = 'ms949') park.head() 그래프에 한글을 적기위한 코드이다 나눔체를 넣어준다. !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf plt.rc('font', fam..
-
(9) 데이터분석_상권별 업종 밀집통계 프로젝트데이터분석 2023. 6. 14. 17:16
상권별 밀집 통계 파일을 읽어온다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # matplotlib 기반으로 만들어진 시각화 라이브러리 shop = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Data_Analyze/shop_201806_01.csv') shop.head() shop.info() # dataframe의 column을 보고 싶으면 columns를 통해 불러준다. print(shop.columns) print(type(shop.columns)) # # isnull()을 이용해서 각 data가 null이면 True, nul..
-
(8) 데이터분석_folium데이터분석 2023. 6. 14. 17:02
1. folium leaflet.js 기반으로 만들어진 라이브러리 지도위에 데이터를 표현해주는 대표적인 파이썬 지도 시각화 라이브러리 https://python-visualization.github.io/folium Folium — Folium 0.14.0 documentation folium builds on the data wrangling strengths of the Python ecosystem and the mapping strengths of the leaflet.js library. Manipulate your data in Python, then visualize it in on a Leaflet map via folium. Concepts folium makes it easy to vi..
-
(7) 데이터분석_워드 클라우드데이터분석 2023. 6. 14. 16:26
1. 워드 클라우드(Word Cloud) 핵심 단어를 시각화하는 기법 문서의 키워드, 개념들을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법 워드클라우드를 사용하기 위해 다운을 받아준다. !pip install wordcloud from wordcloud import WordCloud text = open('/content/drive/MyDrive/study/데이터분석/alice.txt').read() text # generate(): 단어별 출현 빈도수를 비율로 반환하는 객체를 생성 wordcloud = WordCloud().generate(text) import matplotlib.pyplot as plt plt.figure(figsize=(15,10)) plt.i..
-
(6) 데이터분석_형태소 분석데이터분석 2023. 6. 13. 11:35
1. 자연어 일상에서 사용하는 언어 컴퓨터는 자연어를 직접적으로 이해할 수 없음 -> 컴퓨터가 자연어 의미를 분석해 처리할 수 있도록 하는 일을 "자연어처리(Natural Langguage Processing)"라고 부름 2. 토크나이징 문장을 의미가 있는 가장 작은 단어들로 나눔 나눠진 단어들을 이용해 의미를 분석 가장 기본이 되는 단어들을 "토큰"이라고 부름 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업 토크나이징을 어떻게 하느냐에 따라 성능의 차이가 날 수 있음 3. 형태소 분석 자연어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본(분석이 쉬운편) 아시아 계열의 언어분석은 복잡하고 ..