인공지능 개발자 양성 과정

[0419] 데이터 분석 실습 - 서대문구 치킨집 많은 동은?

AI gina 2022. 4. 19. 17:19

- 치킨집이 가장 많은 지역 찾기

- '서울시의 특정구를 선정하여 해당 구안에서 동별 치킨집 분포를

   트리맵을 이용하여 시각화'

 

1. 업종별 데이터 다운로드 및 기초 가공

LOCALDATA 웹 사이트 : https://www.localdata.go.kr/

• 지방자치단체에서 인 허가한 업종별 데이터를 제공

• 문화 체육 관광 식품 등 11가지 분야에 걸쳐 다양한 데이터를 검색할 수 있다.

 

#=========================================================
library(readxl) 
ck <- read_excel("./data/치킨집_가공.xlsx") #데이터 불러오기
head(ck)
str(ck)

#데이터 전처리
addr <- substr(ck$소재지전체주소, 12, 16) #substr() : 특정 문자열에서 일부 추출
head(addr)

addr_num <- gsub("[0-9]", "", addr) #정규표현식 #숫자제거
addr_trim <- gsub(" ", "", addr_num) #공백제거
head(addr_trim)
[1] "창천동"   "창천동"   "창천동"   "남가좌동" "연희동"  
[6] "창천동"

#=========================================================
#동별 치킨집 개수를 확인하여 트리맵으로 표현할 준비작업.
#table(데이터셋1) : 도수분포표 생성 (항목별 갯수를 나타낸 것(동별 개수 파악))
#table(데이터셋1, 데이터셋2) : 교차표 생성(2가지 변수에서 항목간 빈도를 파악할 수 있도록 작성한 표)

addr_count <- addr_trim %>% table() %>% data.frame()
head(addr_count)
         . Freq
1 남가좌동  282
2   냉천동   24
3   대신동    3
4   대현동   69
5   미근동    6
6 북가좌동  155

#=========================================================
#트리맵 : treemap 패키지
install.packages("treemap")
library(treemap)
treemap(addr_count, index=".", vSize="Freq", title="서대문구 동별 치킨집 분포")
#treemap(데이터 세트, index=구분 컬럼, vSize=크기를 이용할 분포 컬럼,vColor=컬러, title=제목)

#내림차순으로 정렬
addr_coun_arrange <- arrange(addr_count, desc(Freq)) %>% head()
treemap(addr_coun_arrange, index=".", vSize="Freq", title="서대문구 동별 치킨집 분포")