1-2회차) 인공지능 자연어 전처리 (한글 자연어 전처리)

한글 자연어 전처리 개요

1. 토큰화

- 영문 자연어 전처리와 비슷

- 한글은 형태소, subword 단위로 토큰화 하는 게 성능이 좋다.

2. 불용어 제거

- 한글 경우에는 스스로 환경에 맞는 불용어를 정의하고 제거하는 방식으로 해야 함.

한글 자연어 전처리 적용

1. 정제

- 특수문자 제거

- 영문과 같은 과정

- 정규식을 이용한 특수문자 제거

- 띄어쓰기가 중요한 한글

1) 띄어쓰기가 적용되지 않은 상태로 코퍼스변환

* 정규식을 이용하여 띄어쓰기가 적용되지 않은 상태로 코퍼스 변환

2) 띄어쓰기 적용을 위한 PyKoSpacing 패키지 설치

* PyPi.org에 등록되지않은 상태이므로 git을 이용한 설치

* 실습하려면 구글 colab을 통해 설치.

3) PyKoSpacing을 이용한 띄어쓰기 적용.

* spacing()함수를 이용하여 띄어쓰기 적용.

2. 토큰화

- kss : 한글 문장 단위 토큰화

- kss.split_sentences() : 한글 문장단위 토큰화 적용.

- 한글 단어 단위 토큰화

1) 여기서는 가장 간단한 띄어쓰기 기준인 어절 토큰화 보여줄 예정.

2) split() : 아무것도 적지 않으면, 공백 단위로 나눠서 리스트 형태로 출력

3. 한글 불용어 제거

- 한글 불용어 목록을 제공하지 않고, 인터넷에 다운로드&추가 정리해야 함.

- 여기서는 stopword_dict.csv 파일을 생성할 예정.

- colab업로드 과정 소스.

- pandas을 이용하여 불영어 사전 출력

1) 윈도우 환경에서는 encoding = 'cp949' 되어 있으므로, 이거로 읽어야 함.

2) Dataframe 형태로 저장되어 있음.

- list 타입으로 저장

- 파이썬의 List Compregension을 이용하여 불용어 제거

저작자표시 (새창열림)

'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글

3-2회차) 자연어 처리를 위한 Word2Vec (0)	2023.05.03
3-1회차) 자연어 처리를 위한 Word2Vec (0)	2023.05.03
2-2회차) 자연어 처리 형태소 분석 (형태소 분석 사전활용) (0)	2023.01.21
2-1회차) 자연어 처리 형태소 분석 (영문, 한글 형태소 분석) (0)	2023.01.18
1-1회차) 인공지능 자연어 전처리 (영문 자연어 전처리) (0)	2023.01.15

無지식에서 예비DS까지

1-2회차) 인공지능 자연어 전처리 (한글 자연어 전처리)

한글 자연어 전처리 개요

1. 토큰화

2. 불용어 제거

한글 자연어 전처리 적용

1. 정제

2. 토큰화

3. 한글 불용어 제거

'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글

티스토리툴바

1-2회차) 인공지능 자연어 전처리 (한글 자연어 전처리)

한글 자연어 전처리 개요

1. 토큰화

2. 불용어 제거

한글 자연어 전처리 적용

1. 정제

2. 토큰화

3. 한글 불용어 제거

'🥾 프로젝트 > (STEP)파이썬을 활용한 인공지능 자연어 처리' 카테고리의 다른 글

'🥾 프로젝트/(STEP)파이썬을 활용한 인공지능 자연어 처리' Related Articles

티스토리툴바