본문 바로가기

🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리

2-2회차) 자연어 처리 형태소 분석 (형태소 분석 사전활용)

신조어 형태소 분석

1. 신조어 형태소 분석 방법

- 용어 사전에 없는 단어 분석 방법은 아래와 같음.

- 다음위 1,2을 알아볼 예정

 

2. KoalaNLP 패키지 활용

- 기존의 존재한 형태소 분석기를 패키징해서, rab함수를 이용해 접근할 수 있다.

-  한국어 형태소 및 구문 분석기 모음

 1) KoNLPy, ETRI 형태소 분석, OpenAPI, Khaiii, Kiwi 등

 

- !pip install koalanlp 설치

- KoalaNLP 지원 형태소 분석기

- KoalaNLP 지원 형태소 분석기 사용 (install 했다는 가정이후, 작업 방법)

KoalaNLP 분석 방법

 1) import :  파이썬 사용하기 위한 모듈, 클래스, 함수 import

 2) initialize : 다운로드 및 자원 설정 최기화

 3) 형태소 분석 : koalanlp에서 지원하는 형태소 분석기 사용

 4)  finalize : 사용 자원 반납 등 사용종류 처리

 

- 형태소 분석을 위한 코퍼스

corpus

- 파이썬에서 사용하기 위해 import 함수

koalanlp의 import

- 다운로드 및 자원 설정 초기화 (intialize)

-  KoalaNLP 지원 형태소 분석기 사용 - eunjeon

- eunjeon : 윈도우용 mecab을 이용하여 형태소 분석을 수행하는 내용

- Tagger 생성자 함수를 이용해서, 형태소 분석기의 key값을 이용해서 접근

- tag : tag함수 이용해서 형태소 분석

 

- tagged : 리스트 형태로 구성되어 있어다.

 1) tagged[0] : 리스트의 첫번째 요소를 선택

 2) singleLineString() :  이를 이용해서 출력.

 

- 출력 분석

 1) 확장 -> NNG(명사)

 2) 현실 -> NNG(명사)

 3) 메타 -> NNG(명사)

 4) 버스 -> NNG(명사)

 5) 증강 + 현실 -> NNG(명사) / +이어져 있음(즉 '합성 명사'로 해석함)

 

- 출력 해석

 1) 확장 현실, 메타 버스 단어는 합성 단어있지만, 각각 따로 명사로 분석을 함 -> 정확한 분석이 이뤄지지 않음

 2) 증강 현실은 합성 명사로 해석 -> 정확한 해석이 이루어 짐.

 3) 추후 이후에 살펴볼 예정

 

- ENRI를 활용해서 형태소 분석

- 사이트 들어가서 key 발급 받기

ETRI의 key 발급

- KoalaNLP 지원 형태소 분석기 사용 - ETRI

- 출력 해석

 1) 확장 + 현실 : 합성 명사로 정확하게 해석

 2) 메타버스 : 하나의 명사로 정확하게 해석

 3) 증강 + 현실 : 합성 명사로 정확하게 해석

 

- eunjeon 형태소 분석기 사전 등록

- 형태소 분석기가 기본적으로 제공하는 용어사전에 접근해서 직접 신조어, 특정 도메인 단어 등을 등록

- POS, Dictionary 를 import

- addUserDictionary 사용자 단어 사전 등록

 

- 확인

- finalize : 사용자자원 반납