본문 바로가기

🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리

4-2회차) 자연어 처리를 위한 토픽 모델링

2. LDA를이용한토픽모델링

1) LDA 를 이용한 토픽모델링 

1) LDA 적용을 위한 CountVectorizer 생성

 (1) CountVectorizer 개요

- 사이킷런에서 제공하는 vectorizer 활용 예정

- CounterVectorizer 는 단순 counter

- TfidfVectorizer 는 가중치 조정하여 counter

- TfidfVectorizer 는 CounterVectorizer 단점을 보완

 

 (2) CountVectorizer 적용

- max_df : 10% 이상 / 너무 자주 등장하는 단어들은 제외

- unigram : 단어 1개/ unigram : 단어 2개 씩 보면서 하겠다.

- (1600, 1000) 데이터 모양 :

 > 1000개의 feature를 생성하라고 위에서 지시함.

 > 1600개의 word들이 있음.

- 0번째 찍어봄

 > 210라는 토큰이(어떤 건 줄 모르지만, 예를 들면 play) 3번 등장한다 의미.

- 벡터화된 실제 단어들 출력

 

2) LDA 클래스를이용한 LDA 적용

 (1) LDA 클래스 객체 생성

 (2) LDA 적용 결과 확인

- topic_num = 2 -> 임의의 토픽 하나 꺼내서 확인. 

- argsort :  정렬해서, [::-1] -> 최대값을 가져옴

참고 : https://dacon.io/competitions/official/235946/codeshare/6017
참고 : https://dacon.io/competitions/official/235946/codeshare/6017
참고 : https://dacon.io/competitions/official/235946/codeshare/6017