본문 바로가기

🥾 프로젝트/어떤 식당들이 인기가 좋을까?

(5)
3) 식당 정보 EDA(3) 1. 선별된 각 컬럼의 전처리 실시. 1) 35개의 컬럼 중 23개만 선별 실시. 2) index으로 사용할 컬럼 전처리. (1) 식당ID : 식당 고유의 ID (2) 식당명 : 식당 명 (3) 도로명주소 : 도로명 주소 3) N/Y 컬럼 0과 1로 처리하기. (1) 테이크아웃여부 (2) 예약가능여부 (3)선결제(pre-pay)여부 (4) 와이파이여부 (5) 장애인편의시설여부 (6) 주차가능유무 4) 정규휴업일 (1) 통일된 양식으로 작성되어 있지 않음 (2) 통합 전처리 실시 - 아래 경우를 나눠서, 통일성일 갖춤 - 연중무휴에 해당하는 모든 경우의 수 - 명절에 해당하는 모든 경우의 수 - 기타에 해당하는 모든 경우의 수 - 토요일 오타에 해당하는 모든 경우의 수 - 모든 요일에 해당하는 모든 경우의..
3) 식당 정보 EDA(2) 1. 전체 컬럼 살펴보기 & 선별하기 1) 3,110 개의 행과 35개의 컬럼으로 구성 (1) 35개 컬럼 파악 - 식당ID : 식당 고유의 ID > index으로 사용 - 식당명 : 식당 명 > index으로 사용 - 업종(메뉴)정보 : 총 75종 업종 > null, 한식을 세부 분류하기 전 - 테이크아웃여부 : N/Y 구분 - 예약가능여부 : N/Y 구분 - 선결제(pre-pay)여부 : N/Y 구분 - 식당대표전화번호 : 전화번호 / 분석에 필요 없는 컬럼 - 도로명주소 : 도로명 주소 > index으로 사용. 지번주소 : 지번 주소 > index으로 사용. > 도로명주소를 사용 예정. - 정규휴업일 : > 식당별 주간, 요일 모두 다름. > 요일별 전처리를 통합할 예정. - 식당면적 : > 면적이..
3) 식당 정보 EDA(1) 1. 전체 데이터 확인 1) 3,110 개의 행과 35개의 컬럼으로 구성 2) 데이터프레임 내의 각 컬럼별 null 값 개수 확인 (1) null 값이 존재하는 컬럼 - 업종(메뉴)정보 : 636 - 식당대표전화번호 : 80 - 도로명주소 : 3 - 정규휴업일 : 623 - 대표메뉴 : 3 - 식당홈페이지 : 2994 3) null 값 처리 판단하기 (1) null값이 전체 데이터의 약 20%에 해당. - 삭제하기에는 많은 손실되어서, 모델 성능에 큰 영향이 있을꺼로 판단 함. (2) null 값을 최대한 채우기로 결정. 2. null값이 큰 3개 컬럼 파악(업종(메뉴)정보, 정규휴업일, 식당홈페이지) (1) 정규휴업일, 식당홈페이지 컬럼은 본 연구에 성능과 관련 없는 변수로 판단하여, 제거 예정 (2)..
2) 2개 데이터 병합 방법 1. 2개 데이터 병합 방법 1) 인기있는 식당의 기준을 네이버 평점 4.5 이상 식당으로 정의 함. (1) 추후 회귀 모델로 네이버 평점 4.5이상 식당들의 특징을 살펴 볼 예정. 2) 2개의 (전라남도_식당정보, 전라남도_식당품질정보) 파일에는 target변수인 '네이버 평점'과 merge 할 수 있는 고유 '식당 ID'가 존재 3) '식당 ID'로 merge결과 공통된 식당 데이터는 20개만 존재 4) '전라남도_식당품질정보' 파일은 이미 평점이 좋은 식당만 존재 & null 값 다수 (1) 네이버 평점 분포가 고루 있어야 인기있는 식당의 특징 파악이 좋으나, 이 파일은 평점이 좋은 식당만 다수 (2) 근거 - 컬럼 '어워드 정보설명' : 모범식당, 안심식당 // 이미 좋은 식당으로 선정된 식당들의..
1) 주제 선정 & 자료 찾기 1. 주제 선정 : 인기가 많은 식당들은 그 이유가 뭘까? 1) 주제 선정 동기 (1) 내가 선택한 이 주제는 개인적인 경험과 궁금증에서 시작. (2) 부모님이 32년 넘게 식당을 운영. - 그중 30년 넘게 현재까지 고기집을 운영 중이시다. (3) 어릴 적 기억에는 항상 손님들로 북적이던 식당 (4) 현재는 부모님의 건강을 위해 소수의 손님만 받으시는 상태. (4) 오랜만에 단체 손님을 받으면서 오랜만에 일손을 도우면서 문득 이런 생각. - 만약 지금 내가 식당을 운영한다면, 어린 시절 부모님의 식당처럼 인기 있는 장소를 만들 수 있을까? (5) 이러한 호기심이 이번 프로젝트를 시작하게 된 계기. 2. 자료 찾기 1) 자료 찾기 (1) 공공데이터포털에서 찾은 2가지 데이터(전라남도_식당정보 & 전라남도..