1. 자연어

일상에서 사용하는 언어
컴퓨터는 자연어를 직접적으로 이해할 수 없음 -> 컴퓨터가 자연어 의미를 분석해 처리할 수 있도록 하는 일을 "자연어처리(Natural Langguage Processing)"라고 부름

2. 토크나이징

KoNLPy를 쓰기 위해 다운로드와 import를 해준다.

!pip install KoNLPy

from konlpy.corpus import kolaw

kolaw.fileids()

law = kolaw.open('constitution.txt').read()

# KoNLPy에는 kobill(국회법안 파일)을 제공

from konlpy.corpus import kobill

kobill.fileids()

bill = kobill.open('1809895.txt').read()

기본적인 한국어 자연어 처리를 위한 파이썬 라이브러리
- 명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 조사, 감탄사 총 9가지를 분석
분석기
- Hannanum: 한나눔. KAIST Semantic Wen Research Center 에서 개발
- Kkma: 꼬꼬마. 서울대학교 IDS 연구실에서 개발
- Komorand: 코모란. Shineware에서 개발
- OKT(Open Korean Text): 오픈소스 한국어 분석기. 과거 트위터 형태소 분석기