1. 선별된 각 컬럼의 전처리 실시.
1) 35개의 컬럼 중 23개만 선별 실시.
2) index으로 사용할 컬럼 전처리.
(1) 식당ID : 식당 고유의 ID
(2) 식당명 : 식당 명
(3) 도로명주소 : 도로명 주소
3) N/Y 컬럼 0과 1로 처리하기.
(1) 테이크아웃여부
(2) 예약가능여부
(3)선결제(pre-pay)여부
(4) 와이파이여부
(5) 장애인편의시설여부
(6) 주차가능유무
4) 정규휴업일
(1) 통일된 양식으로 작성되어 있지 않음
(2) 통합 전처리 실시 - 아래 경우를 나눠서, 통일성일 갖춤
- 연중무휴에 해당하는 모든 경우의 수
- 명절에 해당하는 모든 경우의 수
- 기타에 해당하는 모든 경우의 수
- 토요일 오타에 해당하는 모든 경우의 수
- 모든 요일에 해당하는 모든 경우의 수
- 월 1회, 2회, 3회, 4회, 8회에 해당하는 모든 경우의 수
(3) null값 처리하기
- 총 623개의 null 값 존재
- 계획 : 네이버 검색에서 '도로명 주소' 검색 후에, 그 도로명에 '식당명' 동일한 식당명이 있다면?
- 해당 링크의 정규휴업을 크롤링 예정.
- 이유 : 2020년 10월 데이터라서, 현재 폐업한 식당이 존재할 수 있음.
- 폐업한 식당의 경우엔는 기타로 구분 예정.
- 문제 발생 :
> 아래 버튼(?)을 눌러야지 휴업일이 나옴
> 크롤링을 이리저리 해봐도, 결국에는 실패 ..ㅠㅠㅠ
- 극복하기:
> 정규휴업일 null 식당 623 개를 노가다해서 값 채울 예정.
> 하지만, 너무 힘들기에 현재 영업하는 식당들만 리스트 작업 실시
> 결과적으로 정규휴업일 null 식당 : 623 개
> null 식당 중 현재 운영중인 식당 : 246개
> 246개는 직접 검색해서, 값을 채우기로 결정
- null 식당 중 현재 운영중인 식당(246개) 채우기
> 영업시간이 없는 식당은 기타로 처리
> 작업 시간 약 1시간 10분 ㄷㄷ.. 몸소 공부의 중요성을 배움.
앞으로 할 일
1. 이어서 각 컬럼 전처리 실시.
'🥾 프로젝트 > 어떤 식당들이 인기가 좋을까?' 카테고리의 다른 글
3) 식당 정보 EDA(2) (0) | 2023.12.31 |
---|---|
3) 식당 정보 EDA(1) (0) | 2023.12.31 |
2) 2개 데이터 병합 방법 (0) | 2023.12.30 |
1) 주제 선정 & 자료 찾기 (0) | 2023.12.25 |