영문 자연어 전처리 개요
1. 정제
- 특수문자 제거
- 대소문자 통일
1) 일반적으로 소문자로 통일
2. 토큰화
- 토큰화에 따라 모델 성능이 차이가 난다.
- 불용어 제거
1) 전치사, 관사 등 불필요한 단어를 제거하는 단계
2) you, my, the ..
영문 자연어 전처리 적용
1. 정제
- 제거 대상 특수문자의 종류
- 경우에 따라, 웹사이트에서 제공하는 2byte 특수문자는 여기 없을 수 있음.(주의 필요)
- 정규식을 이용한 특수문자 제거(re)
1) \w : 문자, \. : 그 자체, \s : 공백
2) ^ : 제외
3) 문자, .(점), 공백을 제외한 모든 것 길이가 0인 문자로 변환(즉 제거하겠다)
4) \n : 엔터키 눌렀을 때, escape 문자임
5) 이것도 제거함.
2. 토큰화
- nltk 이용한 토큰화를 위해 punkt 모듈 다운로드 및 활용
- 단어 단위 토큰화 - word_tokenize
3. 불용어 제거
- nltk 패키지의 stopword 다운로드
- 불용어 활용 방법 - for문과 if문 활용
1) for문을 돌린다(문장을 토큰화 시킨 것)
2) if문을 돌린다 (불용어 사전에 있지 않으면 출력해줘)
3) list(tokens)형태로 출력.
- 불용어 활용 방법 - 2글자 이하 제거
1) 글자 단위수 제한하는 코드.
4. 대소문자 통일
- tokens에는 토큰화된 것 담겨 있음.
- 소문자화 처리.
반응형
'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글
3-2회차) 자연어 처리를 위한 Word2Vec (0) | 2023.05.03 |
---|---|
3-1회차) 자연어 처리를 위한 Word2Vec (0) | 2023.05.03 |
2-2회차) 자연어 처리 형태소 분석 (형태소 분석 사전활용) (0) | 2023.01.21 |
2-1회차) 자연어 처리 형태소 분석 (영문, 한글 형태소 분석) (0) | 2023.01.18 |
1-2회차) 인공지능 자연어 전처리 (한글 자연어 전처리) (0) | 2023.01.15 |