본문 바로가기

전체 글

(105)
2023년 평가 올해 초에 계획을 잘 달성했나 평가를 해봤다. 아래는 내가 올해 초에 다짐한 내용들이다. 마음가짐 #1 - 초딩 수준으로 시작. 완벽하게 하려고 하지마. 처음부터 잘하려고 하지마. 일단 초딩스럽게 시작해. ‘도의적으로 옳은 결정이란 없으며, 내게 맞는 결정만 있을뿐’ 목표는 항상 변경함. 평가 : ★★★★★ 평가 내용 : 1. 여전히 무엇가를 결정할 때, 최선인가에 대한 의문이 항상 존재 함 2. 또한 완벽하게 하려고 하는 기질은 어쩔 수 없음. 3. 하지만 위와 같은 마음가짐이 후로, 시작에 있어서 스트레스가 확실히 감소. 4. 또한, 성과적으로도 좋았던 한 해였음. #2 - 우선 순위를 항상 생각하기. 반드시 이뤄야 할 것들을 먼저 하기. 부담 없이 가볍게 시작하기. 평가 : ★ ★ ★ ★ ☆ 평가 ..
3) 식당 정보 EDA(1) 1. 전체 데이터 확인 1) 3,110 개의 행과 35개의 컬럼으로 구성 2) 데이터프레임 내의 각 컬럼별 null 값 개수 확인 (1) null 값이 존재하는 컬럼 - 업종(메뉴)정보 : 636 - 식당대표전화번호 : 80 - 도로명주소 : 3 - 정규휴업일 : 623 - 대표메뉴 : 3 - 식당홈페이지 : 2994 3) null 값 처리 판단하기 (1) null값이 전체 데이터의 약 20%에 해당. - 삭제하기에는 많은 손실되어서, 모델 성능에 큰 영향이 있을꺼로 판단 함. (2) null 값을 최대한 채우기로 결정. 2. null값이 큰 3개 컬럼 파악(업종(메뉴)정보, 정규휴업일, 식당홈페이지) (1) 정규휴업일, 식당홈페이지 컬럼은 본 연구에 성능과 관련 없는 변수로 판단하여, 제거 예정 (2)..
2) 2개 데이터 병합 방법 1. 2개 데이터 병합 방법 1) 인기있는 식당의 기준을 네이버 평점 4.5 이상 식당으로 정의 함. (1) 추후 회귀 모델로 네이버 평점 4.5이상 식당들의 특징을 살펴 볼 예정. 2) 2개의 (전라남도_식당정보, 전라남도_식당품질정보) 파일에는 target변수인 '네이버 평점'과 merge 할 수 있는 고유 '식당 ID'가 존재 3) '식당 ID'로 merge결과 공통된 식당 데이터는 20개만 존재 4) '전라남도_식당품질정보' 파일은 이미 평점이 좋은 식당만 존재 & null 값 다수 (1) 네이버 평점 분포가 고루 있어야 인기있는 식당의 특징 파악이 좋으나, 이 파일은 평점이 좋은 식당만 다수 (2) 근거 - 컬럼 '어워드 정보설명' : 모범식당, 안심식당 // 이미 좋은 식당으로 선정된 식당들의..