Large Language Model
Scaling autoregressive language modeling to billions of parameters enabled emergent reasoning, instruction following, and general-purpose text generation capabilities.
Model Transformer jest trenowany na tokenach z korpusu tekstowego, ucząc się przewidywać kolejny token (autoregresja). Przy wystarczająco dużej skali (parametry, dane, obliczenia) pojawiają się zdolności emergentne: reasoning, in-context learning, instruction following.
Poprzednie modele NLP były wąsko specjalizowane (osobny model do tłumaczenia, klasyfikacji, QA). LLM ujednolicają wiele zadań językowych w jednym generycznym modelu.
GENEZA · Papier źródłowy
Language Models are Few-Shot Learners (GPT-3)GPT-3 – pierwsza szeroko uznana era LLM
przełomOpenAI publikuje GPT-3 (175B), demonstrując few-shot learning i emergentne zdolności językowe.
ChatGPT – RLHF i masowe zastosowanie
przełomOpenAI publikuje ChatGPT (InstructGPT/GPT-3.5), łącząc LLM z RLHF. Masowa adopcja interfejsu konwersacyjnego.
LLaMA – era open-weights LLM
przełomMeta publikuje LLaMA, inicjując erę otwartych modeli wielkojęzykowych.
Trening i inferecja LLM opiera się na macierzowych operacjach Transformer, które są natywnie przyspieszane przez CUDA Tensor Cores (A100, H100, GB200).
Google używa TPU do trenowania modeli Gemini i PaLM.
BAZUJE NA
Transformer
Transformer jest fundamentalną architekturą wszystkich współczesnych dużych modeli językowych, opartą na mechanizmie uwagi (attention) zaproponowanym w 2017 roku.
PRZEJDŹ DO KONCEPTUROZSZERZA
Instruction Tuning
Instruction tuning polega na trenowaniu modeli językowych na zbiorach danych zawierających instrukcje i oczekiwane odpowiedzi.
PRZEJDŹ DO KONCEPTUCzęsto używane z
RLHF
Reinforcement Learning from Human Feedback (RLHF) to metoda trenowania modeli generatywnych poprzez wykorzystanie ocen ludzi do uczenia modelu nagrody.
PRZEJDŹ DO KONCEPTURAG
Retrieval-Augmented Generation (RAG) to architektura systemów AI, w której model językowy korzysta z zewnętrznych źródeł wiedzy podczas generowania odpowiedzi. W klasycznym modelu językowym wiedza pochodzi wyłącznie z danych treningowych. W architekturze RAG system najpierw wyszukuje informacje w bazie dokumentów, a następnie przekazuje je do modelu językowego jako kontekst. Dzięki temu modele AI mogą odpowiadać na pytania na podstawie aktualnych danych, dokumentów firmowych lub specjalistycznych baz wiedzy. Technologia RAG jest szeroko stosowana w chatbotach firmowych, systemach wyszukiwania AI, analizie dokumentów oraz systemach knowledge base.
PRZEJDŹ DO KONCEPTU| Tytuł | Wydawca | Typ |
|---|---|---|
| Language Models are Few-Shot Learners (GPT-3) | OpenAI / arXiv | artykuł naukowy |