본문 바로가기

🥾 프로젝트/어떤 식당들이 인기가 좋을까?

3) 식당 정보 EDA(1)

1. 전체 데이터 확인

1) 3,110 개의 행과 35개의 컬럼으로 구성

2) 데이터프레임 내의 각 컬럼별 null 값 개수 확인

 

 (1) null 값이 존재하는 컬럼

  - 업종(메뉴)정보 : 636
  - 식당대표전화번호 : 80
  - 도로명주소 : 3
  - 정규휴업일 : 623
  - 대표메뉴 : 3
  - 식당홈페이지 : 2994

  3) null 값 처리 판단하기

 (1) null값이 전체 데이터의 약 20%에 해당.

  - 삭제하기에는 많은 손실되어서, 모델 성능에 큰 영향이 있을꺼로 판단 함.

  (2) null 값을 최대한 채우기로 결정.

2. null값이 큰 3개 컬럼 파악(업종(메뉴)정보, 정규휴업일, 식당홈페이지)

 (1) 정규휴업일, 식당홈페이지 컬럼은 본 연구에 성능과 관련 없는 변수로 판단하여, 제거 예정

 (2) 업종(메뉴)정보는 네이버 인기평점에 영향이 있을꺼로 판단하여, 자세히 살펴볼 예정.

2. 업종(메뉴)정보에서 전처리 

1) 업종(메뉴)정보 null 값은 636 개

 (1) 업종(메뉴)정보와 대표 메뉴가 긴밀한 관계가 있음.

  - 업종의 null 값은 대표메뉴를 보고, 구분할 예정.

  - 구체적인 방법은 아직 구상x

2) 업종(메뉴)정보의 '한식' 전처리

 (1) 전체 데이터 3,110 개 중 한식 1,165 개로 약 전체 1/3를 차지. (null값을 채우기 전 상태임에도 많은 양의 데이터 확인)

 (2) 한식 부분의 대표요리 확인 결과, 뭉둥그려져서 한식업종으로 분류되어 있음.

 (3) 한식 부분을 병합하거나, 세분화 하는 작업을 실시할 예정.

한식 업종의 대표메뉴를 살펴보니 닭볶음탕->닭요리 / 생오리-> 오리요리 / 감자탕->감자탕 으로 세부 분류가 가능.
전체 업종 정보 확인

3) 업종(메뉴)정보의 '한식' 전처리 과정 

이 과정은 선별된 각 컬럼의 전처리 과정 중에 업종(메뉴)정보 때 실시할 예정

 

 (1) 대표메뉴 null 값 채우기 - 3개
 (2) 대표메뉴 맨 앞 1개 메뉴만 남겨두기

 (3) 대표메뉴를 보고, 한식 업종에 카테고리 전처리.

  - ✔ 고민 해야할 부분
 (4) 업종의 null값을 대표메뉴를 보고 전처리.
 (5) 업종 중복되는 부분 있으면 통합 실시.


앞으로 할 일

1. 전체 컬럼 EDA 살펴보기.

2. 컬럼 선별하기.