1. 전체 컬럼 살펴보기 & 선별하기
1) 3,110 개의 행과 35개의 컬럼으로 구성
(1) 35개 컬럼 파악
- 식당ID : 식당 고유의 ID
> index으로 사용
- 식당명 : 식당 명
> index으로 사용
- 업종(메뉴)정보 : 총 75종 업종
> null, 한식을 세부 분류하기 전
- 테이크아웃여부 : N/Y 구분
- 예약가능여부 : N/Y 구분
- 선결제(pre-pay)여부 : N/Y 구분 - 식당대표전화번호 : 전화번호 / 분석에 필요 없는 컬럼
- 도로명주소 : 도로명 주소
> index으로 사용.
지번주소 : 지번 주소
> index으로 사용.
> 도로명주소를 사용 예정.
- 정규휴업일 :
> 식당별 주간, 요일 모두 다름.
> 요일별 전처리를 통합할 예정.
- 식당면적 :
> 면적이 0인 곳이 1,119 개 존재 함.
> 조금 검증이 필요
- 식당위도 : 위도
> 위치 데이터가 모델 성능에 영향이 있을 수 있다고 가정을 하고 모델 평가 예정
> 추후 위치 데이터 제외해서 분석도 해볼 예정.
- 식당경도 : 경도
> 경도와 내용 같음.
- 대표메뉴 :
> 대표메뉴 보통 3개로 작성되어 있음.
> 맨 앞에 1개로만 통일 예정.
> 분석에 사용여부는 보류.
- 어워드_글로벌 : 공란이라 삭제- 어워드_로컬 : 블루리본 2라는 이름으로 1개만 있어서 삭제 예정- 트립어드바이저 인기도 : 0만 존재해서 삭제- 씨트립 인기도 : 0과 4만 존재해서 삭제 예정
- 네이버 인기도 :
> 0~5점으로 소수점 단위로 존재.
> target 데이터가 될 예정.
> 추후 자세히 검증할 예정.
- 레드테이블 평가 :
> 0~2.71으로 소수점 단위로 존재.
> 네이버 인기도와 높은 상관관계가 있을꺼로 예상
> 아직 활용도를 모르겠어서 보류.
- 온라인화진행여부 : 모두 N이라 제거- 다국어메뉴판제공여부 : 모두 N이라 제거- 다국어지원언어 : 공란이라 제거- 다국어메뉴판 주소 : 공란이라 제거
- 수용태세지수 :
> 2.3 ~ 3.72 구성
> 지역별 음식관광 수용태세를 정확히 판단하고 비교하기 위한 수단
- 좌석수_입석 : 0~600 구성
- 좌석수_좌식 : 0~192 구성
- 와이파이여부 : N/Y 구분
- 장애인편의시설여부 : N/Y 구분
- 주차가능유무 : N/Y 구분
- 식당근처랜드마크정보 :
> 식당 근처 관광지 장소 이름이 기입
> ex:광양문화원
- 랜드마크위도 : 랜드마크 위도
- 랜드마크경도 : 랜드마크 경도
> 추후 랜드마크와 식당과의 거리를 계산하는 컬럼을 추가해서, 분석 해볼 예정.- 식당홈페이지 : 홈페이지- 등록일시 : 2020-10-6 ~ 2021.01.15
앞으로 할 일
1. 선별된 각 컬럼의 전처리 실시.
'🥾 프로젝트 > 어떤 식당들이 인기가 좋을까?' 카테고리의 다른 글
3) 식당 정보 EDA(3) (0) | 2023.12.31 |
---|---|
3) 식당 정보 EDA(1) (0) | 2023.12.31 |
2) 2개 데이터 병합 방법 (0) | 2023.12.30 |
1) 주제 선정 & 자료 찾기 (0) | 2023.12.25 |