본문 바로가기

🥾 프로젝트/어떤 식당들이 인기가 좋을까?

2) 2개 데이터 병합 방법

1. 2개 데이터 병합 방법

1) 인기있는 식당의 기준을 네이버 평점 4.5 이상 식당으로 정의 함.

 (1) 추후 회귀 모델로 네이버 평점 4.5이상 식당들의 특징을 살펴 볼 예정.

2) 2개의 (전라남도_식당정보, 전라남도_식당품질정보) 파일에는 target변수인 '네이버 평점'과 merge 할 수 있는 고유 '식당 ID'가 존재
3) '식당 ID'로 merge결과 공통된 식당 데이터는 20개만 존재

 

4) '전라남도_식당품질정보' 파일은 이미 평점이 좋은 식당만 존재 & null 값 다수

 (1) 네이버 평점 분포가 고루 있어야 인기있는 식당의 특징 파악이 좋으나, 이 파일은 평점이 좋은 식당만 다수

 (2) 근거

  - 컬럼 '어워드 정보설명' : 모범식당, 안심식당 // 이미 좋은 식당으로 선정된 식당들의 데이터

  - 컬럼 '수용태세지수' : 지역별 음식관광 수용태세를 정확히 판단하고 비교하기 위한 수단 // 좋은 점수 받은 식당 데이터

    · 참조 : (논문) 지역음식관광 발전을 위한 음식점 수용태세지수 개발: 델파이 기법 및 AHP를 활용하여

 (3) 네이버 평점 분포 확인

  - 대부분 4.5 이상 평점으로 분포

(4) 

null값 확인

  - target이 되는 네이버 평점의 null값이 50%이상 존재.

5) '잔라남도_식당품질정보' 파일은 사용하지 않기로 결정.

 (1) 추후 새로운 데이터 확보가 된다면, 업데이트 예정.

 


앞으로 할 일

 1. '전라남도_식당정보'  파일 EDA 실시.

 - 컬럼들 특징 파악

'🥾 프로젝트 > 어떤 식당들이 인기가 좋을까?' 카테고리의 다른 글

3) 식당 정보 EDA(3)  (0) 2023.12.31
3) 식당 정보 EDA(2)  (0) 2023.12.31
3) 식당 정보 EDA(1)  (0) 2023.12.31
1) 주제 선정 & 자료 찾기  (0) 2023.12.25