3-1회차) 자연어 처리를 위한 Word2Vec

1) Word2Vect 모델 적용을 위한 데이터 세트

(1) 코랩에서 파일 불러오기

(2) 카테코리가 7 출력

2) 전처리, 형태소 분석 및 명사 추출

3) gensim 패키지를 이용한 Word2Vec 모델 생성

- sg : 어떠한 기법을 통해 모델을 만들건가 선택.

- size : 문자열을 숫자로 만드는 과정(=벡터화)

오류 방생

- size를 vector_size로 변경

1) 유사어 검색

2) 단어 간 유사도 산출

- 코퍼스가 작기 때문에 유사도가 높음

- 나중에 대량의 코퍼스로 학습하면, 유사도가 낮음

- 뒤에 배울 pre-trained[사전 학습 된] 하면 적절한 유사도 측정 가능

1) OOV(Out Of Vocabulary)

- 사전에 존재하지 않는 단어가 있다면, 처리 불가

2) OOV(Out Of Vocabulary) 해결

- FastText 와 Glove를 통해 해결 가능

- 다음꺼에 작성

無지식에서 예비DS까지