2. LDA를이용한토픽모델링
1) LDA 를 이용한 토픽모델링
1) LDA 적용을 위한 CountVectorizer 생성
(1) CountVectorizer 개요
- 사이킷런에서 제공하는 vectorizer 활용 예정
- CounterVectorizer 는 단순 counter
- TfidfVectorizer 는 가중치 조정하여 counter
- TfidfVectorizer 는 CounterVectorizer 단점을 보완
(2) CountVectorizer 적용
- max_df : 10% 이상 / 너무 자주 등장하는 단어들은 제외
- unigram : 단어 1개/ unigram : 단어 2개 씩 보면서 하겠다.
- (1600, 1000) 데이터 모양 :
> 1000개의 feature를 생성하라고 위에서 지시함.
> 1600개의 word들이 있음.
- 0번째 찍어봄
> 210라는 토큰이(어떤 건 줄 모르지만, 예를 들면 play) 3번 등장한다 의미.
- 벡터화된 실제 단어들 출력
2) LDA 클래스를이용한 LDA 적용
(1) LDA 클래스 객체 생성
(2) LDA 적용 결과 확인
- topic_num = 2 -> 임의의 토픽 하나 꺼내서 확인.
- argsort : 정렬해서, [::-1] -> 최대값을 가져옴
'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글
5-1회차) 자연어 처리를 위한 RNN (0) | 2023.05.07 |
---|---|
4-3회차) 자연어 처리를 위한 토픽 모델링 (0) | 2023.05.04 |
4-1회차) 자연어 처리를 위한 토픽 모델링 (0) | 2023.05.04 |
3-2회차) 자연어 처리를 위한 Word2Vec (0) | 2023.05.03 |
3-1회차) 자연어 처리를 위한 Word2Vec (0) | 2023.05.03 |