4-2회차) 자연어 처리를 위한 토픽 모델링

1) LDA 적용을 위한 CountVectorizer 생성

(1) CountVectorizer 개요

- 사이킷런에서 제공하는 vectorizer 활용 예정

- CounterVectorizer 는 단순 counter

- TfidfVectorizer 는 가중치 조정하여 counter

- TfidfVectorizer 는 CounterVectorizer 단점을 보완

(2) CountVectorizer 적용

- max_df : 10% 이상 / 너무 자주 등장하는 단어들은 제외

- unigram : 단어 1개/ unigram : 단어 2개 씩 보면서 하겠다.

- (1600, 1000) 데이터 모양 :

> 1000개의 feature를 생성하라고 위에서 지시함.

> 1600개의 word들이 있음.

- 0번째 찍어봄

> 210라는 토큰이(어떤 건 줄 모르지만, 예를 들면 play) 3번 등장한다 의미.

- 벡터화된 실제 단어들 출력

2) LDA 클래스를이용한 LDA 적용

(1) LDA 클래스 객체 생성

(2) LDA 적용 결과 확인

- topic_num = 2 -> 임의의 토픽 하나 꺼내서 확인.

- argsort : 정렬해서, [::-1] -> 최대값을 가져옴

無지식에서 예비DS까지