분류 전체보기
-
(9) 데이터분석_상권별 업종 밀집통계 프로젝트데이터분석 2023. 6. 14. 17:16
상권별 밀집 통계 파일을 읽어온다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # matplotlib 기반으로 만들어진 시각화 라이브러리 shop = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Data_Analyze/shop_201806_01.csv') shop.head() shop.info() # dataframe의 column을 보고 싶으면 columns를 통해 불러준다. print(shop.columns) print(type(shop.columns)) # # isnull()을 이용해서 각 data가 null이면 True, nul..
-
(8) 데이터분석_folium데이터분석 2023. 6. 14. 17:02
1. folium leaflet.js 기반으로 만들어진 라이브러리 지도위에 데이터를 표현해주는 대표적인 파이썬 지도 시각화 라이브러리 https://python-visualization.github.io/folium Folium — Folium 0.14.0 documentation folium builds on the data wrangling strengths of the Python ecosystem and the mapping strengths of the leaflet.js library. Manipulate your data in Python, then visualize it in on a Leaflet map via folium. Concepts folium makes it easy to vi..
-
(7) 데이터분석_워드 클라우드데이터분석 2023. 6. 14. 16:26
1. 워드 클라우드(Word Cloud) 핵심 단어를 시각화하는 기법 문서의 키워드, 개념들을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법 워드클라우드를 사용하기 위해 다운을 받아준다. !pip install wordcloud from wordcloud import WordCloud text = open('/content/drive/MyDrive/study/데이터분석/alice.txt').read() text # generate(): 단어별 출현 빈도수를 비율로 반환하는 객체를 생성 wordcloud = WordCloud().generate(text) import matplotlib.pyplot as plt plt.figure(figsize=(15,10)) plt.i..
-
(6) 데이터분석_형태소 분석데이터분석 2023. 6. 13. 11:35
1. 자연어 일상에서 사용하는 언어 컴퓨터는 자연어를 직접적으로 이해할 수 없음 -> 컴퓨터가 자연어 의미를 분석해 처리할 수 있도록 하는 일을 "자연어처리(Natural Langguage Processing)"라고 부름 2. 토크나이징 문장을 의미가 있는 가장 작은 단어들로 나눔 나눠진 단어들을 이용해 의미를 분석 가장 기본이 되는 단어들을 "토큰"이라고 부름 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업 토크나이징을 어떻게 하느냐에 따라 성능의 차이가 날 수 있음 3. 형태소 분석 자연어의 문장을 형태소라는 최소 단위로 분할하고 품사를 판별하는 작업 영어 형태소 분석은 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본(분석이 쉬운편) 아시아 계열의 언어분석은 복잡하고 ..
-
(5) 데이터분석_가상 쇼핑몰 데이터 프로젝트데이터분석 2023. 6. 13. 11:30
가상 쇼핑몰 데이터를 분석해보자 pandas 사용을 위해 import를 시켜준다 import pandas as pd 쇼핑몰 데이터를 경로에따라서 읽어온다 retail = pd.read_csv('/content/drive/MyDrive/study/데이터분석/OnlineRetail.csv') 각 컬럼에 대한 설명 InvoiceNo: 주문번호 StockCode: 상품코드 Description: 상품설명 Quantity: 주문수량 InvoiceDate: 주문날짜 UnitPrice: 상품가격 CustomerID: 고객아이디 Country: 고객거주지역(국가) pd.options.display.max_rows = 10 retail.isnull().sum() # 각 필드당 null이 몇 % 있는지 확인 ..
-
(4) 데이터분석_데이터프레임 활용하기데이터분석 2023. 6. 13. 10:44
야구선수의 타율을 분석해보자 pandas를 쓰기위해 import를 시켜준다. import pandas as pd # https://www.koreabaseball.com/Record/Player/HitterDetail/Basic.aspx?playerId=77532 url = 'https://www.koreabaseball.com/Record/Player/HitterDetail/Daily.aspx?playerId=77532' df = pd.read_html(url,index_col = 0) df df1 = pd.concat(df) df1 'AVG1','AB', 'H', '2B', '3B', 'HR' 컬럼만 남기고 제거하기 df1 = df1[['AVG1','AB', 'H', '2B', '3B', 'HR']]..
-
(3) 데이터분석_MatPlotlib데이터분석 2023. 6. 12. 12:58
1. MatPlotlib 파이썬 기반 시각화 라이브러리 한글에 대한 지원이 완벽하지 않음 pandas와 연동이 용이함 공식홈페이지 https://matplotlib.org Matplotlib — Visualization with Python seaborn seaborn is a high level interface for drawing statistical graphics with Matplotlib. It aims to make visualization a central part of exploring and understanding complex datasets. statistical data visualization Cartopy Cartopy is a Python package des matplo..
-
(2) 데이터분석_Pandas데이터분석 2023. 6. 11. 20:36
1. 판다스(Pandas) '웨스 맥키니' 가 개발한 라이브러리 데이터 작업을 쉽고 직관적으로 할 수 있도록 설계된 빠르고 유연한 데이터 구조 판다스를 사용하기 위해 다운로드 !pip install pandas 판다스를 사용하기 위해 import를 시켜준다. import pandas as pd 1-1. Series와 DataFrame 2차원 표 데이터를 데이터프레임이라고 한다면. 1차원 표데이터 시리즈다. 표의 데이터 부분을 values라고 부름 표의 행이름을 index라고 부름 표의 열이름을 columns라고 부름 시리즈는 values와 index로 이루어져 있고, 데이터 프레임은 values,index,columns로 이루어져 있음 데이터프레임과 시리즈는 value는 넘파이의 ndarray기반 dat..