LLM
LLM • Foundation Model
Aktywny
Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 3
Large Language Model (LLM) to klasa modeli AI trenowanych na miliardach lub bilionach tokenów tekstu. Modele te rozumieją i generują tekst na poziomie eksperckim.
Jak działa
LLM używa architektury Transformer do przewidywania następnego tokenu, ucząc się reprezentacji języka z ogromnych zbiorów danych.
Problem rozwiązywany
Wcześniejsze modele NLP były wąsko wyspecjalizowane i nie generalizowały dobrze.
Kluczowe mechanizmy
autoregressive generation
next-token prediction
in-context learning
Ocena
Mocne strony
- Generalizacja
- In-context learning
- Elastyczność
Ograniczenia
- Halucynacje
- Stały knowledge cutoff
- Koszt inferowania
