Model Transformer jest trenowany na tokenach z korpusu tekstowego, ucząc się przewidywać kolejny token (autoregresja). Przy wystarczająco dużej skali (parametry, dane, obliczenia) pojawiają się zdolności emergentne: reasoning, in-context learning, instruction following.
Poprzednie modele NLP były wąsko specjalizowane (osobny model do tłumaczenia, klasyfikacji, QA). LLM ujednolicają wiele zadań językowych w jednym generycznym modelu.
LLM generują fluent tekst nawet gdy nie mają wiedzy o danym fakcie — zamiast "nie wiem" model fabryuje szczegóły. Krytyczne w zastosowaniach medycznych, prawnych, finansowych.
LLM mają skończone okno kontekstowe (4k–1M tokenów). Przy przekroczeniu limitu model traci wcześniejsze informacje. Długie dokumenty wymagają chunking + RAG lub summarization.
Złośliwe dane w środowisku agenta (treść strony, e-mail) mogą nadpisać instrukcje systemowe i przejąć kontrolę nad agentem. Szczególnie groźne przy agencie z dostępem do narzędzi.
OpenAI publikuje GPT-3 (175B), demonstrując few-shot learning i emergentne zdolności językowe.
OpenAI publikuje ChatGPT (InstructGPT/GPT-3.5), łącząc LLM z RLHF. Masowa adopcja interfejsu konwersacyjnego.
Meta publikuje LLaMA, inicjując erę otwartych modeli wielkojęzykowych.
Trening i inferecja LLM opiera się na macierzowych operacjach Transformer, które są natywnie przyspieszane przez CUDA Tensor Cores (A100, H100, GB200).
Google używa TPU do trenowania modeli Gemini i PaLM.