Chapter 5 토큰화

자연어 처리: 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술

말뭉치: 목적에 따라 구축되는 텍스트 데이터

토큰: 개별 단어나 문장 부호와 같은 텍스트

토큰화: 컴퓨터가 자연어를 이해할 수 있도록 토큰으로 나눔

토크나이저: 텍스트 문자열을 토큰으로 나누는 알고리즘 또는 소프트웨어

차원의 저주: 토큰만큼의 차원을 가진 희소 데이터로 표현하여 필요 데이터가 증가하거나 모델의 성능이 저하

단어 토큰화

텍스트 데이터를 의미 있는 단위인 단어로 분리하는 작업

띄어쓰기, 문장 부호, 대소문자 등 특정 구분자를 활용

한국어 접사, 문장 부호, 오타, 띄어쓰기 오류 등에 취약

글자 단위로 문장을 나누는 방식, 작은 단어 사전을 구축할 수 있다는 장점

단어 토큰화와 다르게 공백도 토큰으로 나눔

tokenized = list(review)