본문 바로가기

전체 글

(105)
5-1회차) 자연어 처리를 위한 RNN 1. RNN 데이터입력을위한데이터로더구현 1) field 지정 (1) torchtext를 이용한 field 객체 생성 - 자연어 처리에서 텍스트 데이터를 가지고, 긍부정을 나누는 형태 - torchtext 라이브러리는 파이토치 환경에서 자연어 처리의 전처리, 데이터 분리 등 편리한 기능 제공 - filed를 생성할 예정인데, 여기에 text와 label 값을 넣을 예정. - text : 영화 평 - label : 긍/부정 - sequntial : > RNN계열은 sequntial 사용 예정. > sequntial 데이터란 시간적 흐름에 의미가 있거나, 자연어와 같은 선후관계가 존재하는 것. > 영화평은 자연어가 선후관계가 존재 함. - include_lengths : > 길이를 맞추는 여부 > 문장이 길..
4-3회차) 자연어 처리를 위한 토픽 모델링 3. 토픽 모델 시각화 1) pyLDAvis 설치 및 적용 (1) pyLDAvis 개요 (2) pyLDAvis 설치 (3) pyLDAvis 적용 - 판다스와 사용할 예정인데, 판다스 1.2 버전이 필요. 2) pyLDAvis 이용한 토픽 모델 시각화 (1) 토픽 모델 시각화 활용 - 시각화 작업에 필요한 prepare() 함수 사용. - 1번 파라미터 : 사이킷런의 lda가 전달 - 2번 파라미터 : lda수행한 결과(즉, 토픽 모델링을 수행한 결과) - 3번 파라미터 : lda수행하기 위해 만든 counter_vectorizer - display 함수 : 시각화 - 위 그림은 왼쪽에 위치 함. - 8개 그룹으로 토픽 - 토픽간에 거리가 멀다 -> 유사도가 떨어진다. - 8번은 다른 토픽에 비해 유사도가..
4-2회차) 자연어 처리를 위한 토픽 모델링 2. LDA를이용한토픽모델링 1) LDA 를 이용한 토픽모델링 1) LDA 적용을 위한 CountVectorizer 생성 (1) CountVectorizer 개요 - 사이킷런에서 제공하는 vectorizer 활용 예정 - CounterVectorizer 는 단순 counter - TfidfVectorizer 는 가중치 조정하여 counter - TfidfVectorizer 는 CounterVectorizer 단점을 보완 (2) CountVectorizer 적용 - max_df : 10% 이상 / 너무 자주 등장하는 단어들은 제외 - unigram : 단어 1개/ unigram : 단어 2개 씩 보면서 하겠다. - (1600, 1000) 데이터 모양 : > 1000개의 feature를 생성하라고 위에서 지..