1. 전체 데이터 확인
1) 3,110 개의 행과 35개의 컬럼으로 구성
2) 데이터프레임 내의 각 컬럼별 null 값 개수 확인
(1) null 값이 존재하는 컬럼
- 업종(메뉴)정보 : 636
- 식당대표전화번호 : 80
- 도로명주소 : 3
- 정규휴업일 : 623
- 대표메뉴 : 3
- 식당홈페이지 : 2994
3) null 값 처리 판단하기
(1) null값이 전체 데이터의 약 20%에 해당.
- 삭제하기에는 많은 손실되어서, 모델 성능에 큰 영향이 있을꺼로 판단 함.
(2) null 값을 최대한 채우기로 결정.
2. null값이 큰 3개 컬럼 파악(업종(메뉴)정보, 정규휴업일, 식당홈페이지)
(1) 정규휴업일, 식당홈페이지 컬럼은 본 연구에 성능과 관련 없는 변수로 판단하여, 제거 예정
(2) 업종(메뉴)정보는 네이버 인기평점에 영향이 있을꺼로 판단하여, 자세히 살펴볼 예정.
2. 업종(메뉴)정보에서 전처리
1) 업종(메뉴)정보 null 값은 636 개
(1) 업종(메뉴)정보와 대표 메뉴가 긴밀한 관계가 있음.
- 업종의 null 값은 대표메뉴를 보고, 구분할 예정.
- 구체적인 방법은 아직 구상x
2) 업종(메뉴)정보의 '한식' 전처리
(1) 전체 데이터 3,110 개 중 한식 1,165 개로 약 전체 1/3를 차지. (null값을 채우기 전 상태임에도 많은 양의 데이터 확인)
(2) 한식 부분의 대표요리 확인 결과, 뭉둥그려져서 한식업종으로 분류되어 있음.
(3) 한식 부분을 병합하거나, 세분화 하는 작업을 실시할 예정.
3) 업종(메뉴)정보의 '한식' 전처리 과정
이 과정은 선별된 각 컬럼의 전처리 과정 중에 업종(메뉴)정보 때 실시할 예정
(1) 대표메뉴 null 값 채우기 - 3개
(2) 대표메뉴 맨 앞 1개 메뉴만 남겨두기
(3) 대표메뉴를 보고, 한식 업종에 카테고리 전처리.
- ✔ 고민 해야할 부분
(4) 업종의 null값을 대표메뉴를 보고 전처리.
(5) 업종 중복되는 부분 있으면 통합 실시.
앞으로 할 일
1. 전체 컬럼 EDA 살펴보기.
2. 컬럼 선별하기.
'🥾 프로젝트 > 어떤 식당들이 인기가 좋을까?' 카테고리의 다른 글
3) 식당 정보 EDA(3) (0) | 2023.12.31 |
---|---|
3) 식당 정보 EDA(2) (0) | 2023.12.31 |
2) 2개 데이터 병합 방법 (0) | 2023.12.30 |
1) 주제 선정 & 자료 찾기 (0) | 2023.12.25 |