본문 바로가기

전체 글

(105)
4-1회차) 자연어 처리를 위한 토픽 모델링 1. 토픽 모델링을 위한 형태소 분석 1. 토픽모델링을위한형태소분석 1) KoNLPy를 이용한 형태소 분석 (1) 형태소 분석 수행을 위한 데이터 확인 (2) Okt 클래스를 이용한 형태소 분석 -stem : 어근 추출하겠다. (3) 형태소 분석 수행을 위한 함수 정의 2) KoNLPy를 이용한 형태소 분석 결과 저장 (1) 전체 데이터의 형태소 분석 및 결과 저장 - df_news 중에 news는 원본 데이터 - 그 원본 데이터를 apply에 함수명을 넣는다. - get_words 실행되어 나옴 return 값을 df_news에 새로운 컬럼 'words' 생성
3-2회차) 자연어 처리를 위한 Word2Vec Pre-trained Word2Vec 모델활용 1. 한글 모델 1) Pre-trained Word2Vec 모델 다운로드 (1) 코랩에서 파일 불러오기 - 한국 전체 방대양 WIKI 데이터 세트를 미리 학습한다면, OOV 해결 및 적절한 유사도 가능. - 이러한 것이 pre-trained 모델 - 추후 Bert 배울 것도 사전학습 모델임. (2) Pre-trained Word2Vec 모델 메모리 로드 - error 발생 - 아직 해결하지 못함. 2. 한글 모델을 활용한 유사도 분석 1) 유서도 검색 (1) model.wv.similarity( ) 함수를 이용하여 유사도높은 단어 검색 2) 단어 간 유사도 산출 3. 영문 모델 1) Pre-trained Word2Vec 모델 다운로드 - 구글 드라이브에 업로..
3-1회차) 자연어 처리를 위한 Word2Vec Word2Vec 모델 적용 1. Word2Vec 모델 1) Word2Vect 모델 적용을 위한 데이터 세트 (1) 코랩에서 파일 불러오기 (2) 카테코리가 7 출력 2) 전처리, 형태소 분석 및 명사 추출 3) gensim 패키지를 이용한 Word2Vec 모델 생성 - sg : 어떠한 기법을 통해 모델을 만들건가 선택. - size : 문자열을 숫자로 만드는 과정(=벡터화) 오류 방생 - size를 vector_size로 변경 2. Word2Vec 모델을 활용한 유서도 분석 1) 유사어 검색 2) 단어 간 유사도 산출 - 코퍼스가 작기 때문에 유사도가 높음 - 나중에 대량의 코퍼스로 학습하면, 유사도가 낮음 - 뒤에 배울 pre-trained[사전 학습 된] 하면 적절한 유사도 측정 가능 3. Word2..