본문 바로가기

🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리

4-3회차) 자연어 처리를 위한 토픽 모델링

3. 토픽 모델 시각화

1) pyLDAvis 설치 및 적용

 (1) pyLDAvis 개요

 (2) pyLDAvis 설치

 (3) pyLDAvis 적용

- 판다스와 사용할 예정인데, 판다스 1.2 버전이 필요.

 

2) pyLDAvis 이용한 토픽 모델 시각화

 (1) 토픽 모델 시각화 활용

- 시각화 작업에 필요한 prepare() 함수 사용.

- 1번 파라미터 : 사이킷런의 lda가 전달

- 2번 파라미터 : lda수행한 결과(즉, 토픽 모델링을 수행한 결과)

- 3번 파라미터 : lda수행하기 위해 만든 counter_vectorizer 

- display 함수 : 시각화

- 위 그림은 왼쪽에 위치 함.

- 8개 그룹으로 토픽

- 토픽간에 거리가 멀다 -> 유사도가 떨어진다.

- 8번은 다른 토픽에 비해 유사도가 떨어진다.

- 4,7번은 매우 유사도가 높음

- 왼쪽에 위치 함.

- 특정 토픽을 클릭을 하면, 각 토픽별 자주 등장하는 단어가 그림처럼 나옴.

- 위 토픽을 확인하면 '스포츠'와 관련된 것임을 알 수 있음.