본문 바로가기

🥾 프로젝트/어떤 식당들이 인기가 좋을까?

3) 식당 정보 EDA(2)

1. 전체 컬럼 살펴보기 & 선별하기

1) 3,110 개의 행과 35개의 컬럼으로 구성

 (1) 35개 컬럼 파악

 

- 식당ID : 식당 고유의 ID

 > index으로 사용

 

- 식당명 : 식당 명

 > index으로 사용


- 업종(메뉴)정보 : 총 75종 업종

 > null, 한식을 세부 분류하기 전


- 테이크아웃여부 : N/Y 구분
- 예약가능여부 : N/Y 구분
- 선결제(pre-pay)여부 : N/Y 구분
- 식당대표전화번호 : 전화번호 / 분석에 필요 없는 컬럼

 

- 도로명주소 : 도로명 주소

 > index으로 사용.

 

 지번주소 : 지번 주소

 > index으로 사용.

 > 도로명주소를 사용 예정.

 

- 정규휴업일 :

 > 식당별 주간, 요일 모두 다름.

 > 요일별 전처리를 통합할 예정.


- 식당면적 :

 > 면적이 0인 곳이 1,119 개 존재 함.

 > 조금 검증이 필요

 

- 식당위도 : 위도 

 > 위치 데이터가 모델 성능에 영향이 있을 수 있다고 가정을 하고 모델 평가 예정

 > 추후 위치 데이터 제외해서 분석도 해볼 예정.

- 식당경도 : 경도

 > 경도와 내용 같음.

 

- 대표메뉴 :

 > 대표메뉴 보통 3개로 작성되어 있음.

 > 맨 앞에 1개로만 통일 예정.

 > 분석에 사용여부는 보류.


- 어워드_글로벌 : 공란이라 삭제
- 어워드_로컬 : 블루리본 2라는 이름으로 1개만 있어서 삭제 예정
- 트립어드바이저 인기도 : 0만 존재해서 삭제
- 씨트립 인기도 : 0과 4만 존재해서 삭제 예정


- 네이버 인기도 :

 > 0~5점으로 소수점 단위로 존재.

 > target 데이터가 될 예정.

 > 추후 자세히 검증할 예정.

 

- 레드테이블 평가 :

 > 0~2.71으로 소수점 단위로 존재.

 > 네이버 인기도와 높은 상관관계가 있을꺼로 예상

 > 아직 활용도를 모르겠어서 보류.

 

- 온라인화진행여부 : 모두 N이라 제거
- 다국어메뉴판제공여부 : 모두 N이라 제거
- 다국어지원언어 : 공란이라 제거
- 다국어메뉴판 주소 : 공란이라 제거


- 수용태세지수 :

 > 2.3 ~ 3.72 구성

 > 지역별 음식관광 수용태세를 정확히 판단하고 비교하기 위한 수단


- 좌석수_입석 : 0~600 구성
- 좌석수_좌식 : 0~192 구성
- 와이파이여부 : N/Y 구분
- 장애인편의시설여부 : N/Y 구분
- 주차가능유무 : N/Y 구분


- 식당근처랜드마크정보 :

 > 식당 근처 관광지 장소 이름이 기입

 > ex:광양문화원


- 랜드마크위도 : 랜드마크 위도
- 랜드마크경도 : 랜드마크 경도

 > 추후 랜드마크와 식당과의 거리를 계산하는 컬럼을 추가해서, 분석 해볼 예정.
- 식당홈페이지 : 홈페이지
- 등록일시 : 2020-10-6 ~ 2021.01.15

 


앞으로 할 일

1. 선별된 각 컬럼의 전처리 실시.