본문 바로가기

🥾 프로젝트/어떤 식당들이 인기가 좋을까?

3) 식당 정보 EDA(3)

1. 선별된 각 컬럼의 전처리 실시.

1) 35개의 컬럼 중 23개만 선별 실시.

23개 컬럼 확인

2) index으로 사용할 컬럼 전처리.

 (1) 식당ID : 식당 고유의 ID

 (2) 식당명 : 식당 명

 (3) 도로명주소 : 도로명 주소

set_index 사용

 

3) N/Y 컬럼 0과 1로 처리하기.

 (1) 테이크아웃여부
 (2) 예약가능여부
 (3)선결제(pre-pay)여부
 (4) 와이파이여부

 (5) 장애인편의시설여부
 (6) 주차가능유무

 

4) 정규휴업일

(1) 통일된 양식으로 작성되어 있지 않음

415개의 종류로 되어 있음.

 

 (2) 통합 전처리 실시 - 아래 경우를 나눠서, 통일성일 갖춤

  -  연중무휴에 해당하는 모든 경우의 수
  -  명절에 해당하는 모든 경우의 수
  -  기타에 해당하는 모든 경우의 수
  -  토요일 오타에 해당하는 모든 경우의 수
  -  모든 요일에 해당하는 모든 경우의 수
  -  월 1회, 2회, 3회, 4회, 8회에 해당하는 모든 경우의 수

통합 전처리 모습

 

 (3) null값 처리하기

  - 총 623개의 null 값 존재

정규 휴업일 파악

 

 -  계획 : 네이버 검색에서 '도로명 주소' 검색 후에, 그 도로명에 '식당명' 동일한 식당명이 있다면?

 - 해당 링크의 정규휴업을 크롤링 예정.

 - 이유 : 2020년 10월 데이터라서, 현재 폐업한 식당이 존재할 수 있음.

 - 폐업한 식당의 경우엔는 기타로 구분 예정.

 

도로명 주소 검색 후, 해당 식당명이 나옴
양평해장국 클릭 후, 휴업일을 확인 할 수 있었음

 

- 문제 발생 :

 > 아래 버튼(?)을 눌러야지 휴업일이 나옴

 > 크롤링을 이리저리 해봐도, 결국에는 실패 ..ㅠㅠㅠ

아래 버튼 누르고, '매일' 텍스트를 못가져오겠어요 ㅠ

- 극복하기:

 > 정규휴업일 null 식당 623 개를 노가다해서 값 채울 예정.

 > 하지만, 너무 힘들기에 현재 영업하는 식당들만 리스트 작업 실시

 > 결과적으로 정규휴업일 null 식당 : 623 개

 > null 식당 중 현재 운영중인 식당 : 246개

 > 246개는 직접 검색해서, 값을 채우기로 결정

현재 영업하는 식당만 뽑아주는 코드
코드 결과

- null 식당 중 현재 운영중인 식당(246개) 채우기

  > 영업시간이 없는 식당은 기타로 처리

  > 작업 시간 약 1시간 10분 ㄷㄷ.. 몸소 공부의 중요성을 배움.

null 값 전처리 전
null 값 전처리 후
null 확인 결과 0


앞으로 할 일

1. 이어서 각 컬럼 전처리 실시.