본문 바로가기

🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리

1-1회차) 인공지능 자연어 전처리 (영문 자연어 전처리)

영문 자연어 전처리 개요

1. 정제

- 특수문자 제거

- 대소문자 통일

 1) 일반적으로 소문자로 통일

 

2. 토큰화

- 토큰화에 따라 모델 성능이 차이가 난다.

- 불용어 제거

 1) 전치사, 관사 등 불필요한 단어를 제거하는 단계

 2) you, my, the ..

영문 자연어 전처리 적용

1. 정제

- 제거 대상 특수문자의 종류

- 경우에 따라, 웹사이트에서 제공하는 2byte 특수문자는 여기 없을 수 있음.(주의 필요)

특수문자 종류 파악

 

- 정규식을 이용한 특수문자 제거(re)

정규식 예시

 1)  \w : 문자, \. : 그 자체, \s : 공백

 2)  ^ : 제외

 3)  문자, .(점), 공백을 제외한 모든 것 길이가 0인 문자로 변환(즉 제거하겠다)

\n 통해 scape 제거

4) \n : 엔터키 눌렀을 때, escape 문자임

5) 이것도 제거함.

 

2. 토큰화

- nltk 이용한 토큰화를 위해 punkt 모듈 다운로드 및 활용

punkt 설치

- 단어 단위 토큰화 - word_tokenize

 

3. 불용어 제거

- nltk 패키지의 stopword 다운로드

-  불용어 활용 방법 - for문과 if문 활용

 1) for문을 돌린다(문장을 토큰화 시킨 것)

 2) if문을 돌린다 (불용어 사전에 있지 않으면 출력해줘)

 3) list(tokens)형태로 출력.

 

- 불용어 활용 방법 - 2글자 이하 제거

 1) 글자 단위수 제한하는 코드.

 

4. 대소문자 통일

 -  tokens에는 토큰화된 것 담겨 있음.

 - 소문자화 처리.