자연어 처리: 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술
말뭉치: 목적에 따라 구축되는 텍스트 데이터
토큰: 개별 단어나 문장 부호와 같은 텍스트
토큰화: 컴퓨터가 자연어를 이해할 수 있도록 토큰으로 나눔
토크나이저: 텍스트 문자열을 토큰으로 나누는 알고리즘 또는 소프트웨어
공백 분할: 텍스트를 공백 단위로 분리해 개별 단어로 토큰화한다.
정규표현식 적용: 정규 표현식으로 특정 패턴을 식별해 텍스트를 분할한다.
어휘 사전 적용: 사전에 정이된 단어 집합을 토큰으로 사용한다.
OOV 문제를 고려: 사전에 없는 단어나 토큰이 존재
머신러닝 활용: 데이터세트를 기반으로 토큰화하는 방법을 학습한 머신러닝을 적용한다.
차원의 저주: 토큰만큼의 차원을 가진 희소 데이터로 표현하여 필요 데이터가 증가하거나 모델의 성능이 저하
텍스트 데이터를 의미 있는 단위인 단어로 분리하는 작업
띄어쓰기, 문장 부호, 대소문자 등 특정 구분자를 활용
한국어 접사, 문장 부호, 오타, 띄어쓰기 오류 등에 취약
글자 단위로 문장을 나누는 방식, 작은 단어 사전을 구축할 수 있다는 장점
단어 토큰화와 다르게 공백도 토큰으로 나눔
tokenized = list(review)