신경망 아키텍처
기존 순환망과 같은 순차적 방식이 아닌 병렬로 입력 시퀀스를 처리하는 기능
긴 시퀀스의 경우 순환 신경망 모델보다 훨씬 더 빠르고 효율적으로 처리
기존의 순차 처리나 반복 연결에 의존하지 않고 입력 토큰 간의 관계를 직접 처리하고 이해할 수 있도록 하는 셀프 어텐션을 기반으로 하기 때문이다.
모델이 재귀나 합성곱 연산 없이 입력 토큰 간의 관계를 직접 모델링할 수 있다.
대용량 데이터세트에서 매우 효율적
데이터의 양이 많은 기계 번역과 같은 작업에 적합
언어 모델링 및 텍스트 분류와 같은 작업에서 매우 효과적
광범위한 자연어 처리 작업에서 높은 효율
기계번역, 언어 모델링, 텍스트 요약과 같은 장기적인 종속성을 포함하는 작업에 주로 사용
자연어 처리 분야에서 널리 사용
오토 인코딩(Auto-Encoding)
랜덤하게 문장의 일부를 빈칸 토큰으로 만들고 해당 빈칸에 어떤 단어가 적절할지 예측하는 작업(Task)을 수행한다.
예측하는 토큰의 양옆에 있는 토큰들을 참조하기 때문에 양방향 구조를 가지며, 이를 인코더라고 한다.
예측되는 토큰의 왼쪽에 있는 토큰들만 참조하기 때문에 단방향 구조를 가지며, 이를 디코더라고 한다.
자기 회귀(Auto Regressive)방식
트랜스포머 모델 구조
| 모델 | 학습 구조 | 학습 방법 | 학습 방향성 |
|---|---|---|---|
| BERT | 인코더 | 오토 인코딩 | 양방향 |
| GPT | 디코더 | 자기 회귀 | 단방향 |
| BART | 인코더+디코더 | 오토 인코딩+자기 회귀 | 양방향+단방향 |
| ELECTRA | 인코더+판별기 | 오토 인코딩+대체 토큰 탐지 | 양방향 |
| T5 | 인코더+디코더 | 오토 인코딩+자기 회귀+다양한 자연어 처리 작업을 학습 | 양방향 |