Word2Vec 모델 적용
1. Word2Vec 모델
1) Word2Vect 모델 적용을 위한 데이터 세트
(1) 코랩에서 파일 불러오기
(2) 카테코리가 7 출력
2) 전처리, 형태소 분석 및 명사 추출
3) gensim 패키지를 이용한 Word2Vec 모델 생성
- sg : 어떠한 기법을 통해 모델을 만들건가 선택.
- size : 문자열을 숫자로 만드는 과정(=벡터화)
오류 방생
- size를 vector_size로 변경
2. Word2Vec 모델을 활용한 유서도 분석
1) 유사어 검색
2) 단어 간 유사도 산출
- 코퍼스가 작기 때문에 유사도가 높음
- 나중에 대량의 코퍼스로 학습하면, 유사도가 낮음
- 뒤에 배울 pre-trained[사전 학습 된] 하면 적절한 유사도 측정 가능
3. Word2Vec 모델의 문제점
1) OOV(Out Of Vocabulary)
- 사전에 존재하지 않는 단어가 있다면, 처리 불가
2) OOV(Out Of Vocabulary) 해결
- FastText 와 Glove를 통해 해결 가능
- 다음꺼에 작성
반응형
'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글
4-1회차) 자연어 처리를 위한 토픽 모델링 (0) | 2023.05.04 |
---|---|
3-2회차) 자연어 처리를 위한 Word2Vec (0) | 2023.05.03 |
2-2회차) 자연어 처리 형태소 분석 (형태소 분석 사전활용) (0) | 2023.01.21 |
2-1회차) 자연어 처리 형태소 분석 (영문, 한글 형태소 분석) (0) | 2023.01.18 |
1-2회차) 인공지능 자연어 전처리 (한글 자연어 전처리) (0) | 2023.01.15 |