본문 바로가기

🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리

3-1회차) 자연어 처리를 위한 Word2Vec

Word2Vec 모델 적용

1. Word2Vec 모델

1) Word2Vect 모델 적용을 위한 데이터 세트

 (1) 코랩에서 파일 불러오기

 (2) 카테코리가 7 출력

2) 전처리, 형태소 분석 및 명사 추출

3) gensim 패키지를 이용한 Word2Vec 모델 생성

 - sg : 어떠한 기법을 통해 모델을 만들건가 선택.

- size : 문자열을 숫자로 만드는 과정(=벡터화)

 

오류 방생

- size를 vector_size로 변경

 

2. Word2Vec 모델을 활용한 유서도 분석

1) 유사어 검색

2) 단어 간 유사도 산출

- 코퍼스가 작기 때문에 유사도가 높음

- 나중에 대량의 코퍼스로 학습하면, 유사도가 낮음

- 뒤에 배울 pre-trained[사전 학습 된] 하면 적절한 유사도 측정 가능

3. Word2Vec 모델의 문제점

1) OOV(Out Of Vocabulary)

- 사전에 존재하지 않는 단어가 있다면, 처리 불가

 

2) OOV(Out Of Vocabulary) 해결

- FastText 와 Glove를 통해 해결 가능

- 다음꺼에 작성