1-1회차) 인공지능 자연어 전처리 (영문 자연어 전처리)

영문 자연어 전처리 개요

1. 정제

- 특수문자 제거

- 대소문자 통일

1) 일반적으로 소문자로 통일

2. 토큰화

- 토큰화에 따라 모델 성능이 차이가 난다.

- 불용어 제거

1) 전치사, 관사 등 불필요한 단어를 제거하는 단계

2) you, my, the ..

영문 자연어 전처리 적용

1. 정제

- 제거 대상 특수문자의 종류

- 경우에 따라, 웹사이트에서 제공하는 2byte 특수문자는 여기 없을 수 있음.(주의 필요)

- 정규식을 이용한 특수문자 제거(re)

1) \w : 문자, \. : 그 자체, \s : 공백

2) ^ : 제외

3) 문자, .(점), 공백을 제외한 모든 것 길이가 0인 문자로 변환(즉 제거하겠다)

4) \n : 엔터키 눌렀을 때, escape 문자임

5) 이것도 제거함.

2. 토큰화

- nltk 이용한 토큰화를 위해 punkt 모듈 다운로드 및 활용

- 단어 단위 토큰화 - word_tokenize

3. 불용어 제거

- nltk 패키지의 stopword 다운로드

- 불용어 활용 방법 - for문과 if문 활용

1) for문을 돌린다(문장을 토큰화 시킨 것)

2) if문을 돌린다 (불용어 사전에 있지 않으면 출력해줘)

3) list(tokens)형태로 출력.

- 불용어 활용 방법 - 2글자 이하 제거

1) 글자 단위수 제한하는 코드.

4. 대소문자 통일

- tokens에는 토큰화된 것 담겨 있음.

- 소문자화 처리.

저작자표시 (새창열림)

'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글

3-2회차) 자연어 처리를 위한 Word2Vec (0)	2023.05.03
3-1회차) 자연어 처리를 위한 Word2Vec (0)	2023.05.03
2-2회차) 자연어 처리 형태소 분석 (형태소 분석 사전활용) (0)	2023.01.21
2-1회차) 자연어 처리 형태소 분석 (영문, 한글 형태소 분석) (0)	2023.01.18
1-2회차) 인공지능 자연어 전처리 (한글 자연어 전처리) (0)	2023.01.15

無지식에서 예비DS까지

1-1회차) 인공지능 자연어 전처리 (영문 자연어 전처리)

영문 자연어 전처리 개요

1. 정제

2. 토큰화

영문 자연어 전처리 적용

1. 정제

2. 토큰화

3. 불용어 제거

4. 대소문자 통일

'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글

티스토리툴바

1-1회차) 인공지능 자연어 전처리 (영문 자연어 전처리)

영문 자연어 전처리 개요

1. 정제

2. 토큰화

영문 자연어 전처리 적용

1. 정제

2. 토큰화

3. 불용어 제거

4. 대소문자 통일

'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글

'🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리' Related Articles

티스토리툴바