Architektura

BERT

2018AktywnyOpublikowany

BERT (Bidirectional Encoder Representations from Transformers) to model językowy oparty na enkoderze Transformera, wstępnie trenowany dwukierunkowo na zadaniach Masked Language Modeling i Next Sentence Prediction.

Kluczowa innowacja

Wprowadzenie głębokiej dwukierunkowej reprezentacji języka uzyskanej przez wstępne trenowanie Transformer-encodera na zadaniu Masked Language Modeling, co umożliwiło fine-tuning jednego modelu do wielu zadań NLP z minimalną modyfikacją architektury.

Kategoria

Architektura

Poziom abstrakcji

Pattern

Poziom operacji

ModelTreningPo-trening

Zastosowania

Klasyfikacja tekstu i analiza sentymentuNamed Entity Recognition (NER)Question Answering (SQuAD)Natural Language InferenceWyszukiwanie semantyczne i rerankingKlasyfikacja par zdańBazowy enkoder dla downstream NLP

Jak działa

1) Tokenizacja WordPiece dzieli tekst na podsłowa; do sekwencji dodawane są tokeny [CLS] (na początku, używany jako reprezentacja całego wejścia) i [SEP] (rozdzielający segmenty). 2) Każdy token otrzymuje sumę trzech embeddingów: token, segment (A/B), pozycyjny. 3) Sekwencja przechodzi przez stos warstw enkodera Transformera (12 lub 24), z których każda zawiera Multi-Head Self-Attention bez maski przyczynowej (atencja patrzy w obie strony) oraz feed-forward sublayer z residual connections i layer normalization. 4) Pretrening: ok. 15% tokenów jest maskowanych (z czego 80% zastępowanych [MASK], 10% losowym tokenem, 10% pozostawianych) i model przewiduje oryginał (MLM); jednocześnie model klasyfikuje czy zdanie B następuje po A (NSP). 5) Fine-tuning: na końcu dodawana jest mała warstwa zadaniowa (np. liniowa nad reprezentacją [CLS] do klasyfikacji, lub spans-prediction nad wyjściami wszystkich tokenów do QA), całość trenowana jest end-to-end z małym learning rate.

Rozwiązany problem

Wcześniejsze modele językowe (LSTM-LM, ELMo, GPT-1) były albo jednokierunkowe, albo łączyły dwa niezależne jednokierunkowe modele, co ograniczało jakość kontekstowych reprezentacji słów. Brakowało też uniwersalnego pretrenowanego modelu, który po fine-tuningu osiągałby najlepsze wyniki w wielu różnych zadaniach NLP bez potrzeby projektowania osobnych architektur.

Komponenty

Transformer Encoder StackGeneruje kontekstowe reprezentacje tokenów uwzględniając cały dwukierunkowy kontekst.

Stos 12 (Base) lub 24 (Large) identycznych warstw enkodera Transformera, każda z Multi-Head Self-Attention i feed-forward sublayer.

WordPiece TokenizerDzieli tekst na podsłowa, ogranicza problem OOV.

Tokenizator subwordowy ze słownikiem ok. 30 000 elementów.

Token / Segment / Position EmbeddingsReprezentują tożsamość tokena, przynależność do segmentu A/B i pozycję w sekwencji.

Trzy uczone tablice embeddingów sumowane jako wejście do enkodera.

[CLS] Token HeadPozwala fine-tuningowi na klasyfikację jedną warstwą liniową.

Specjalny token na początku sekwencji, którego końcowa reprezentacja agreguje całą sekwencję dla zadań klasyfikacji.

MLM HeadRealizuje cel MLM podczas pretreningu.

Warstwa wyjściowa z wagami związanymi z embedding-table, używana w pretreningu do przewidywania zamaskowanych tokenów.

Implementacja

Implementacje referencyjne

google-research/bert

Python (TensorFlow) · Google Research

Oficjalna

Hugging Face Transformers — BERT

Python (PyTorch / TensorFlow / JAX) · Hugging Face

bert-base-uncased (model card)

Python · Google (mirror Hugging Face)

Oficjalna

Pułapki implementacyjne

Limit 512 tokenówWysoka

Pozycyjne embeddingi są uczone i ograniczone do 512 pozycji; dłuższe dokumenty wymagają chunking, sliding window lub przejścia na warianty long-context (Longformer, BigBird).

Rozwiązanie:Stosuj sliding window z overlap, hierarchiczną agregację lub model long-context.

Niedopasowanie pretrenowania do generacjiŚrednia

BERT to enkoder dwukierunkowy — nie nadaje się do autoregresywnej generacji tekstu; do generacji używaj GPT-podobnych modeli dekodera lub seq2seq (T5, BART).

Słabość Next Sentence PredictionNiska

Późniejsze prace (RoBERTa, ALBERT) pokazały, że NSP ma niewielki lub negatywny wpływ; preferuj warianty bez NSP lub z lepszym celem (np. Sentence-Order Prediction w ALBERT).

Niespójność [MASK] między pretreningiem a fine-tuningiemNiska

Token [MASK] występuje tylko w pretreningu, nie w fine-tuningu — autorzy łagodzą to schematem 80/10/10. Świadomość tego jest istotna przy modyfikacjach pretreningu.