RobocikowoRobocikowo

Large Language Model

Scaling autoregressive language modeling to billions of parameters enabled emergent reasoning, instruction following, and general-purpose text generation capabilities.

Kategoria
Poziom abstrakcji
Text generationodpowiadanie na pytaniagenerowanie kodupodsumowaniaTranslationConversational AI

Model Transformer jest trenowany na tokenach z korpusu tekstowego, ucząc się przewidywać kolejny token (autoregresja). Przy wystarczająco dużej skali (parametry, dane, obliczenia) pojawiają się zdolności emergentne: reasoning, in-context learning, instruction following.

Poprzednie modele NLP były wąsko specjalizowane (osobny model do tłumaczenia, klasyfikacji, QA). LLM ujednolicają wiele zadań językowych w jednym generycznym modelu.

GENEZA · Papier źródłowy

Language Models are Few-Shot Learners (GPT-3)
2020NeurIPS 2020Tom Brown, Benjamin Mann, Nick Ryder
2020

GPT-3 – pierwsza szeroko uznana era LLM

przełom

OpenAI publikuje GPT-3 (175B), demonstrując few-shot learning i emergentne zdolności językowe.

2022

ChatGPT – RLHF i masowe zastosowanie

przełom

OpenAI publikuje ChatGPT (InstructGPT/GPT-3.5), łącząc LLM z RLHF. Masowa adopcja interfejsu konwersacyjnego.

2023

LLaMA – era open-weights LLM

przełom

Meta publikuje LLaMA, inicjując erę otwartych modeli wielkojęzykowych.

GPU Tensor CoresGŁÓWNY

Trening i inferecja LLM opiera się na macierzowych operacjach Transformer, które są natywnie przyspieszane przez CUDA Tensor Cores (A100, H100, GB200).

TPUDOBRY

Google używa TPU do trenowania modeli Gemini i PaLM.

BAZUJE NA

Transformer

Transformer jest fundamentalną architekturą wszystkich współczesnych dużych modeli językowych, opartą na mechanizmie uwagi (attention) zaproponowanym w 2017 roku.

PRZEJDŹ DO KONCEPTU

ROZSZERZA

Instruction Tuning

Instruction tuning polega na trenowaniu modeli językowych na zbiorach danych zawierających instrukcje i oczekiwane odpowiedzi.

PRZEJDŹ DO KONCEPTU

Często używane z

RLHF

Reinforcement Learning from Human Feedback (RLHF) to metoda trenowania modeli generatywnych poprzez wykorzystanie ocen ludzi do uczenia modelu nagrody.

PRZEJDŹ DO KONCEPTU
RAG

Retrieval-Augmented Generation (RAG) to architektura systemów AI, w której model językowy korzysta z zewnętrznych źródeł wiedzy podczas generowania odpowiedzi. W klasycznym modelu językowym wiedza pochodzi wyłącznie z danych treningowych. W architekturze RAG system najpierw wyszukuje informacje w bazie dokumentów, a następnie przekazuje je do modelu językowego jako kontekst. Dzięki temu modele AI mogą odpowiadać na pytania na podstawie aktualnych danych, dokumentów firmowych lub specjalistycznych baz wiedzy. Technologia RAG jest szeroko stosowana w chatbotach firmowych, systemach wyszukiwania AI, analizie dokumentów oraz systemach knowledge base.

PRZEJDŹ DO KONCEPTU
Language Models are Few-Shot Learners (GPT-3)
artykuł naukowyOpenAI / arXiv