Search
🏆

[12/22(목)] Lecture 14 : T5 and Large Language Models

1. Before T5

1.
Seq2Seq
a.
Neural Machine Translation
b.
Encoder - Decoder 구조의 모델
2.
Attention + Seq2Seq
a.
Neural Machine Translation
b.
Decoder가 Source sentence의 중요한 정보에 집중하게 한다.
3.
Transformer
a.
Neural Machine Translation
b.
Self attention , Multi-head attention
4.
GPT - 1(Transformer Decoder block)
a.
Task Agnostic : Pretraining + Finetuning
b.
언어 자체를 이해 할 수 있는 좋은 Representation을 학습한다.
5.
BERT(Transformer Encoder block)
a.
Task Agnostic : Pretraining + Finetuning
b.
언어를 더 잘 이해하기위해 Bidirectional하게 맥락을 파악한다.
c.
모든 NLP Task에서 SOTA
6.
GPT - 2(Transformer Decoder block)
a.
Task Agnostic : Zeroshot task transfer
b.
언어를 정확히 학습했다면 Finetuning없이 Zeroshot 만으로 좋은 성능을 낼 수 있다 !
c.
7가지 NLP Task에서 SOTA
7.
XLNet(BERT + GPT ≅ AE + AR)
a.
Task Agnostic
b.
BERT 이후 큰 성능향상을 보인 첫 모델
c.
Factorization order를 고려하여 양방향 학습
d.
AR formula를 통해 BERT한계 극복
8.
RoBERTa(Optimize BERT)
a.
Task Agnostic
b.
가장 최적화된 BERT를 만듦
c.
학습시간, batch, train data 증가
9.
MASS(BERT + GPT ≅ AE + AR)
a.
Task Agnostic
b.
Encoder와 Decoder에 상반된 Masking
c.
Decoder : Encoder에서 masking된 단어 예측
d.
Encoder : Masking되지 않은 단어 깊은 이해
e.
Encoder, Decoder의 joint training 장려
10.
BART(BERT + GPT ≅ AE + AR)
a.
Task Agnostic
b.
Encoder에 다양한 noising 추가한 Text generation task에서 SOTA 달성
11.
MT-DNN(Based on BERT)
a.
Task Agnostic
b.
Multitask learning을 통해 universal representation을 생성
c.
Pretrain 단계에서 multitask learning 진행
12.
T5(Encoder-Decoder Transformer)
a.
Task Agnostic
b.
모든 NLP task를 통합할 수 있도록 Text-to-text 프레임워크를 사용

2. T5 Model

T5의 주 목적은 text 형태로 주어진 문제에서 text 정답을 찾는 것!
1.
Model Architecture
a.
Encoder , Decoder only 모델 보다 Basic transformer 구조가 높은 성능을 보인다.
2.
Pretraining Objectives
a.
Pretraining에서 Noising 된 input을 Denoising하며 단어를 예측하는 방식이 가장 효율적인 방법이다.
3.
Unlabeled datasets
a.
Domain specific data는 task에 도움이 되지만 데이터의 크기가 작은경우 overfitting을 야기힌다.
4.
Training Strategies
a.
multitask learning이 unsupervised pre-training과 비슷한 성능 보임
b.
학습시 task별 적절한 proportion이 필요함
5.
Scaling
a.
모델 크기를 늘리거나 ,앙상블을 시도하며 실험 진행.
b.
작은모델을 큰 데이터로 학습하는게 효과적이라는것 발견
6.
Pushing the limits
a.
110억개 파라미터를 가지는 모델을 훈련하여 SOTA 달성함
b.
1 trillon 개가 넘는 token에 대해 훈련 진행함

2-1. T5 Modified MLM

MLM은 bidirectional model 구조를 가진다.
BERT는 하나의 token에 masking을 하지만, T5 연속된 token을 하나의 mask로 바꾼다.
Encoder - Decoder 구조로 input과 target을 가지고 있다.
input에서 mask되지 않은 부분을 target에서 맞춰야 한다.
output level 에서 FFNN + Softmax을 통해 시퀀스 생성