텍스트 벡터화: 컴퓨터는 텍스트 자체를 이해할 수 없으므로 텍스트를 숫자로 변환

원-핫 인코딩

문서에 등장하는 각 단어를 고유한 색인 값으로 매핑한 수, 해당 색인 위치를 1로 표시하고 나머지 위치는 모두 0으로 표시하는 방식

색인 0 1 2 3
토큰 I like apples bananas

빈도 벡터화

문서에서 단어의 빈도수를 세어 해당 단어의 빈도를 벡터로 표현하는 방식

단어나 문장을 벡터 형태로 변환하기 쉽고 간단하다

벡터의 희소성이 크다는 단점

컴퓨팅 비용 증가와 차원의 저주 문제(토큰의 갯수 만큼의 벡터 차원을 가져야 함)

텍스트의 벡터가 입력 텍스트의 의미를 내포하지 않는다.

i scream for ice cream : [1,1,1,1,1] = ice cream for i scream : [1,1,1,1,1]

워드 임베딩 기법을 사용: 단어의 의미를 학습해 표현

단어를 고정된 길이의 실수 벡터로 표현하는 방법, 단어의 의미를 벡터 공간에서 다른 단어와의 상대적 위치로 표현해 단어 간의 관계를 추론

동적 임베딩 기법: 워드 임베딩은 고정된 임베딩을 학습하기 때문에 문맥 정보를 다루기 어렵다는 단점

언어 모델