본문 바로가기

전체 글 보기

(105)
4-2회차) 자연어 처리를 위한 토픽 모델링 2. LDA를이용한토픽모델링 1) LDA 를 이용한 토픽모델링 1) LDA 적용을 위한 CountVectorizer 생성 (1) CountVectorizer 개요 - 사이킷런에서 제공하는 vectorizer 활용 예정 - CounterVectorizer 는 단순 counter - TfidfVectorizer 는 가중치 조정하여 counter - TfidfVectorizer 는 CounterVectorizer 단점을 보완 (2) CountVectorizer 적용 - max_df : 10% 이상 / 너무 자주 등장하는 단어들은 제외 - unigram : 단어 1개/ unigram : 단어 2개 씩 보면서 하겠다. - (1600, 1000) 데이터 모양 : > 1000개의 feature를 생성하라고 위에서 지..
4-1회차) 자연어 처리를 위한 토픽 모델링 1. 토픽 모델링을 위한 형태소 분석 1. 토픽모델링을위한형태소분석 1) KoNLPy를 이용한 형태소 분석 (1) 형태소 분석 수행을 위한 데이터 확인 (2) Okt 클래스를 이용한 형태소 분석 -stem : 어근 추출하겠다. (3) 형태소 분석 수행을 위한 함수 정의 2) KoNLPy를 이용한 형태소 분석 결과 저장 (1) 전체 데이터의 형태소 분석 및 결과 저장 - df_news 중에 news는 원본 데이터 - 그 원본 데이터를 apply에 함수명을 넣는다. - get_words 실행되어 나옴 return 값을 df_news에 새로운 컬럼 'words' 생성
3-2회차) 자연어 처리를 위한 Word2Vec Pre-trained Word2Vec 모델활용 1. 한글 모델 1) Pre-trained Word2Vec 모델 다운로드 (1) 코랩에서 파일 불러오기 - 한국 전체 방대양 WIKI 데이터 세트를 미리 학습한다면, OOV 해결 및 적절한 유사도 가능. - 이러한 것이 pre-trained 모델 - 추후 Bert 배울 것도 사전학습 모델임. (2) Pre-trained Word2Vec 모델 메모리 로드 - error 발생 - 아직 해결하지 못함. 2. 한글 모델을 활용한 유사도 분석 1) 유서도 검색 (1) model.wv.similarity( ) 함수를 이용하여 유사도높은 단어 검색 2) 단어 간 유사도 산출 3. 영문 모델 1) Pre-trained Word2Vec 모델 다운로드 - 구글 드라이브에 업로..
3-1회차) 자연어 처리를 위한 Word2Vec Word2Vec 모델 적용 1. Word2Vec 모델 1) Word2Vect 모델 적용을 위한 데이터 세트 (1) 코랩에서 파일 불러오기 (2) 카테코리가 7 출력 2) 전처리, 형태소 분석 및 명사 추출 3) gensim 패키지를 이용한 Word2Vec 모델 생성 - sg : 어떠한 기법을 통해 모델을 만들건가 선택. - size : 문자열을 숫자로 만드는 과정(=벡터화) 오류 방생 - size를 vector_size로 변경 2. Word2Vec 모델을 활용한 유서도 분석 1) 유사어 검색 2) 단어 간 유사도 산출 - 코퍼스가 작기 때문에 유사도가 높음 - 나중에 대량의 코퍼스로 학습하면, 유사도가 낮음 - 뒤에 배울 pre-trained[사전 학습 된] 하면 적절한 유사도 측정 가능 3. Word2..
(230209) MS AI-900 합격 후기 합격 점수 810점 공부 시간 순수 공부 시간은 6시간 공부 방법 1. 기본 개념(이론) 정리가 필요함.(★) 이론 양 자체가 많지 않아서, 3~4시간 정도 투자하면 이론 완성 가능. 2. 문제 풀이 문제 은행 방식의 느낌이라서, 많이 푸는 게 중요함. 문제가 이해가 안되면, 그 문제 자체를 암기 추천 (★) 3. 공부 방법 기념 개념 정리 - 2시간 문제 풀기 - 2시간 푼 문제 핵심 개념들 다시 체크 - 30분 문제 기계 처럼 출기 - 1시간 30분 (모르면 그냥 암기) (★) 4. 시험 TIP (★) 한국어 버전으로 시험 보기가 가능함 다른 블로그에서 한국어 시험으로 보면 영어 번역 볼 수 있다고 했으나, 필자는 그런 기능 보지 못함(★★) 한국어 버전 장점 : 쉽게 지문이 읽히며, 영어 문제를 많..
(230207) 한국어 덤프 문제 풀이-2 1. 자동 기계 학습 - 사용자가 지정한 매트릭에 따라 점수가 매겨지고, 순위가 매겨지는 여러 교육을 반복 실행이 가능함 2. 분류 - whether : ~인지 아닌지 3. 암기 4. Azure ML 문제 - 그래그 앤 드랍의 다른 말이 보기 1번임 - Adding and connecting modules on a visual canvas 5. 회귀 모델 평가 측정 방법 - 결정계수(R2) 와 평균 제곱근 오차(RMSE) 6. 검증 세트 (답 No) - 검증 세트를 사용하여 모든 훈련 데이터가 모델 훈련에 사용되는 지 확인 할 수 없다. 7. Azure ML에서의 2가지 구성 요소 - 데이터세트와 & 모듈 8. 자신감, 신뢰도(confidence)
(230206) 한국어 덤프 문제 풀이-1 문제 풀이 (링크) 1. 투명성 (transparency) - 정보 제공이 포커싱 그리고 제공하는 것도 쉬워야 함 (expain) 2. 포괄성(inclusiveness) - 차별, 장애에 관련된 내용은 포괄성 3. 신뢰성 및 안전성(reliability & safety) - 예기치 못한 상황, 돌발 상황 - 그럼에도 일관성 있게 작동해야 함. 4. 객체 감지(object Detection) - 경계 상자, 위치를 표시해줌이 나오면 객체 감지 5. Featurn engineering 6. face 서비스의 얼굴 식별(indenification) vs 얼굴 확인(verification) - 얼굴 식별,감지(indenification) : 조건을 나오면서, 식별, 감지 - 얼굴 확인(verification) ..
(230206) Microsoft AI-900 기초 개념 일정 (링크) 합격점수 1. 합격 점수 : 1000점 만점 중 700점 합격 2. 문제 : 약 45개 3. 시험 비용 : 약 11만원 (학교에서 지원) 4. 제출 시, 바로 합격 여부 파악 5. 문제는 객관식, 드레그 앤 드롭, 주관식은 없다 6. 시험문제 & 정답은 모두 한글, 영어가 있지만 영어 추천(한글은 번역이 이상하다) 7. 시간 : 총 45분 8. 한국어 덤프 문제 참고 (링크) / (링크) / (링크) 목차 크게 총 3part : ML(기계 학습), AI(인공 지능), Microsoft Azure 서비스 인공 지능 워크로드 및 고려 사항 설명(20~25%) Azure에서 Machine Learning의 기본 원리 설명(25~30%) Azure에서 Computer Vision 워크로드의 특징 ..
2-2회차) 자연어 처리 형태소 분석 (형태소 분석 사전활용) 신조어 형태소 분석 1. 신조어 형태소 분석 방법 - 용어 사전에 없는 단어 분석 방법은 아래와 같음. - 다음위 1,2을 알아볼 예정 2. KoalaNLP 패키지 활용 - 기존의 존재한 형태소 분석기를 패키징해서, rab함수를 이용해 접근할 수 있다. - 한국어 형태소 및 구문 분석기 모음 1) KoNLPy, ETRI 형태소 분석, OpenAPI, Khaiii, Kiwi 등 - !pip install koalanlp 설치 - KoalaNLP 지원 형태소 분석기 - KoalaNLP 지원 형태소 분석기 사용 (install 했다는 가정이후, 작업 방법) 1) import : 파이썬 사용하기 위한 모듈, 클래스, 함수 import 2) initialize : 다운로드 및 자원 설정 최기화 3) 형태소 분석 ..
2-1회차) 자연어 처리 형태소 분석 (영문, 한글 형태소 분석) 영문 형태소 분석 1. 형태소 분석을 위한 전처리 수행 - 위와 같은 작업을 모두 한 후에, 형태소 작업을 실시 2. nltk 패키지를 이용해 형태소 분석 수행 - pos_tag 함수 이용해 형태소 분석 - set() 함수 : 중복 단어를 제거하기 위해 사용함. 한글 형태소 분석 1. 형태소 분석을 위한 전처리 수행 - 위와 같은 작업을 모두 한 후에, 형태소 작업을 실시 - 한글은 띄어쓰기 처리를 해야 함. 2. KoNLPy 및 패키지 설치 - 위와 같은 작업을 모두 한 후에, 형태소 - 다음과 같이 설치 해야 함. 3. KoNLPy 이용해 한글 형태소 분석 - KoNLPy의 Okt, Kkma, Komoran, Hannanum, Mecab 등의 클래스를 이용하여 객체 생성 - 각 형태소 클래스별 특성 ..