Robocikowo>ROBOCIKOWO
Architektura AI

Czym jest JEPA? Architektura modeli świata według Yanna LeCuna

Pan Robocik23 czerwca 2026 · 9 min czytania
czym-jest-jepa-architektura-modeli-swiata-wedlug-yanna-lecuna-cover

JEPA (Joint Embedding Predictive Architecture) to architektura uczenia maszynowego, która, zamiast odtwarzać surowe piksele, uczy się przewidywać abstrakcyjne reprezentacje świata. Stoi za nią Yann LeCun, a jej celem jest danie maszynom czegoś, czego brakuje dużym modelom językowym — intuicyjnego rozumienia fizyki i przyczynowości.

Czym jest JEPA?

JEPA, czyli Joint Embedding Predictive Architecture, to architektura uczenia samonadzorowanego (self-supervised learning), a nie pojedynczy model AI. Najlepiej rozumieć ją jako schemat projektowy — sposób budowania sieci neuronowych, które uczą się rozumieć obraz lub wideo nie przez odtwarzanie każdego detalu, lecz przez przewidywanie znaczenia tego, czego nie widzą.

Kluczowa różnica wobec dominującego dziś podejścia jest następująca. Duże modele językowe uczą się, zgadując następne słowo w tekście. Modele generatywne obrazu uczą się, odtwarzając brakujące piksele. JEPA robi coś innego: ukrywa fragment danych wejściowych, a następnie próbuje przewidzieć abstrakcyjną reprezentację tego ukrytego fragmentu, a nie jego dokładny wygląd. Innymi słowy, model uczy się przewidywać „o co chodzi" w brakującej części, a nie jak dokładnie ona wygląda piksel po pikselu.

Ta pozornie drobna zmiana ma duże konsekwencje. Świat na poziomie pikseli jest chaotyczny — liście drgają na wietrze, woda się marszczy, tekstury są nieprzewidywalne. Model, który próbuje przewidzieć każdy taki detal, marnuje moc obliczeniową na modelowanie szumu. JEPA z założenia ten szum ignoruje i skupia się na strukturze oraz semantyce. Koncepcję tę LeCun przedstawił w 2022 roku w pracy A Path Towards Autonomous Machine Intelligence, którą warto traktować jako manifest całego nurtu.

Kto za tym stoi?

Twórcą koncepcji jest Yann LeCun, laureat Nagrody Turinga z 2018 roku i jeden z pionierów głębokiego uczenia, przez lata główny naukowiec AI w Meta i szef laboratorium FAIR (Fundamental AI Research). To w Meta powstały pierwsze publiczne implementacje JEPA, udostępniane jako otwarte modele badawcze.

LeCun konsekwentnie twierdzi, że duże modele językowe są ślepą uliczką na drodze do inteligencji na poziomie ludzkim, ponieważ brakuje im rozumienia świata fizycznego, zdolności planowania i zdrowego rozsądku. Z jego perspektywy prawdziwa inteligencja musi opierać się na modelach świata (world models) — wewnętrznych symulacjach rzeczywistości, podobnych do tych, które buduje w głowie obserwujące otoczenie niemowlę.

W listopadzie 2025 roku LeCun ogłosił odejście z Mety po dziesięciu latach, a w grudniu współzałożył startup Advanced Machine Intelligence Labs (AMI Labs), skupiony właśnie na modelach świata. Sama architektura JEPA i jej dotychczasowe warianty pozostają przy tym dobrze udokumentowane w publikacjach Meta i na arXiv, niezależnie od zmian w karierze jej twórcy.

Jak to działa?

Zanim wejdziemy w szczegóły, warto uchwycić główną intuicję. Gdy zasłonimy fragment zdjęcia i zapytamy „co tam jest?”, człowiek nie odtwarza w głowie każdego piksela — od razu myśli pojęciami, na przykład „to dłoń trzymająca kubek”. JEPA naśladuje właśnie ten sposób: zamiast zgadywać dokładny wygląd ukrytej części, stara się przewidzieć jej znaczenie.

Kluczowe pytanie brzmi więc: jak nauczyć sieć takich „pojęć”, skoro nikt nie mówi jej wprost, czym one są? Odpowiedź JEPA polega na tym, by porównywać przewidywania nie na poziomie pikseli, lecz na poziomie abstrakcyjnych reprezentacji — i to właśnie ten pomysł rozkładamy poniżej na czynniki pierwsze.

Mechanizm JEPA opiera się na predykcji w przestrzeni ukrytej (latent space), a nie w przestrzeni surowych danych. Cały proces uczenia można rozłożyć na pięć powtarzanych kroków.

Krok 1 — Maskowanie. Z jednego obrazu lub sekwencji wideo wydzielamy część widoczną (kontekst, ) oraz część zasłoniętą, którą model ma odgadnąć (cel, ).

Krok 2 — Kodowanie. Kontekst i cel trafiają do dwóch osobnych koderów, które zamieniają piksele na abstrakcyjne wektory cech: lista liczb reprezentująca abstrakcyjne, wysokopoziomowe właściwości danych wejściowych, a nie ich surowy wygląd:

Znaczenie symboli
widoczny kontekst (np. fragment obrazu)
zasłonięta część — cel predykcji
koder kontekstu (wagi trenowane wstecznie)
koder celu (wagi z EMA, bez wstecznej propagacji)
reprezentacje (wektory cech) kontekstu i celu

Krok 3 — Predykcja. Predyktor próbuje odtworzyć reprezentację celu wyłącznie na podstawie reprezentacji kontekstu oraz opcjonalnej zmiennej ukrytej , kodującej niepewność i wiele możliwych przyszłości:

Znaczenie symboli
predyktor — sieć ucząca się odwzorowywać kontekst na cel
zmienna ukryta kodująca niepewność i alternatywne przyszłości
przewidziana reprezentacja celu

Krok 4 — Strata. Uczenie minimalizuje odległość między przewidzianą a rzeczywistą reprezentacją celu — liczoną w przestrzeni cech, nie w pikselach:

Znaczenie symboli
funkcja straty minimalizowana podczas treningu
stop-gradient — blokuje uczenie kodera celu
kwadrat odległości euklidesowej między wektorami

Operator (stop-gradient) odcina przepływ gradientu przez koder celu — bez niego sieć mogłaby pójść na skróty, sprowadzając obie reprezentacje do tej samej stałej (zapadanie się reprezentacji).

Krok 5 — Aktualizacja kodera celu. Wagi kodera celu nie są trenowane wstecznie. Zamiast tego wolno podążają za koderem kontekstu jako wykładnicza średnia ruchoma (EMA):

Znaczenie symboli
współczynnik bezwładności, bliski 1
wagi kodera kontekstu i kodera celu

Współczynnik jest bliski jedności (np. rzędu 0,99), więc koder celu zmienia się płynnie i stabilizuje cały trening.

Cały mechanizm można też opisać językiem modeli opartych na energii (energy-based models): parze (kontekst, cel) przypisujemy „energię” równą błędowi predykcji,

Znaczenie symboli
energia przypisana parze kontekst–cel (niska = para zgodna z rzeczywistością)
reprezentacja celu przewidziana z kontekstu
rzeczywista reprezentacja celu
kwadrat odległości między nimi — czyli błąd predykcji

a model uczy się obniżać ją dla par zgodnych z fizyką świata i podnosić dla niezgodnych. Niska energia oznacza, że kontekst i cel naprawdę do siebie pasują.

Z jakich elementów się składa?

Standardowa architektura JEPA opiera się na trzech modułach, zwykle zbudowanych na bazie Vision Transformer (ViT):

  • Koder kontekstu — przetwarza widoczną część danych i tworzy jej abstrakcyjną reprezentację, odfiltrowując nieistotne tło.
  • Koder celu — przetwarza ukrytą część danych i dostarcza reprezentację odniesienia, używaną podczas treningu jako wzorzec.
  • Predyktor — najważniejszy element operacyjny, który na podstawie reprezentacji kontekstu przewiduje reprezentację celu. Może korzystać z dodatkowej zmiennej ukrytej z, pozwalającej modelować niepewność i wiele możliwych wersji przyszłości.

Największym wyzwaniem tej konstrukcji jest zapadanie się reprezentacji (representation collapse). Jeśli oba kodery nauczą się zwracać tę samą stałą wartość niezależnie od danych, błąd predykcji spada do zera, ale model staje się bezużyteczny. Aby temu zapobiec, stosuje się techniki regularyzacji — w pierwszych wariantach była to asymetria koderów i aktualizacja wag kodera celu przez wykładniczą średnią ruchomą (EMA: wykładnicza średnia ruchoma — powolne uśrednianie wag w czasie, w którym nowsze wartości ważą więcej, dzięki czemu koder celu zmienia się stopniowo i stabilnie), a w nowszych podejściach pokrewne metody, jak regularyzacja wariancji i kowariancji znana z VICReg: Variance-Invariance-Covariance Regularization — metoda zapobiegająca zapadaniu się reprezentacji przez wymuszanie wysokiej wariancji cech i ich wzajemnej dekorelacji.

Do czego może być używane?

Najbardziej obiecującym obszarem zastosowań JEPA jest robotyka i sterowanie. Ponieważ architektura uczy się przewidywać konsekwencje zdarzeń w przestrzeni reprezentacji, może posłużyć jako wewnętrzny „symulator" pozwalający robotowi planować działania, zanim je wykona.

Meta zademonstrowała ten kierunek w modelu V-JEPA 2 oraz jego wariancie warunkowanym akcją (V-JEPA 2-AC). Według publikacji Meta i towarzyszącego jej artykułu na arXiv model dostrojony na nagraniach ruchu ramienia robotycznego potrafił planować zadania sięgania i chwytania nieznanych obiektów w nowym otoczeniu, korzystając wyłącznie z danych wizyjnych i bez tradycyjnego treningu w symulacji. Tę zdolność określa się jako planowanie zero-shot: wykonanie zadania bez wcześniejszego treningu na tym konkretnym zadaniu.

Poza robotyką naturalnymi obszarami są pojazdy autonomiczne, systemy przemysłowe oraz wszelkie zastosowania wymagające rozumienia dynamiki fizycznej otoczenia. Trzeba jednak podkreślić, że większość tych zastosowań jest na etapie badawczym i demonstracyjnym, a nie wdrożeń produkcyjnych na dużą skalę.

Czym różni się od innych rozwiązań?

JEPA pozycjonuje się między dwoma wcześniejszymi nurtami uczenia samonadzorowanego.

Modele generatywne

Modele generatywne (jak Masked Autoencoders: model generatywny uczący się przez odtwarzanie zamaskowanych fragmentów obrazu piksel po pikselu czy modele dyfuzyjne: modele generatywne tworzące obraz przez stopniowe odszumianie losowego szumu) odtwarzają surowe dane — piksele lub tokeny. Sprawdza się to świetnie w języku, ale w obrazie i wideo zmusza model do modelowania nieistotnego szumu. Dla długich sekwencji prowadzi to do efektu „rozmycia", gdy model uśrednia wszystkie możliwe wersje przyszłości.

Modele kontrastowe

Modele kontrastowe (jak SimCLR: kontrastowa metoda uczenia samonadzorowanego — zbliża reprezentacje augmentacji tego samego obrazu, a odpycha reprezentacje różnych obrazów czy BYOL: metoda uczenia samonadzorowanego osiągająca zwarte reprezentacje bez próbek negatywnych, dzięki sieci docelowej aktualizowanej przez EMA) uczą się, porównując obraz z jego przekształconymi wersjami i odpychając reprezentacje różnych obiektów. Działają w przestrzeń semantyczna: przestrzeń reprezentacji, w której bliskość wektorów odpowiada podobieństwu znaczenia, a nie wyglądu, ale wymagają dużej liczby przykładów negatywnych oraz ręcznie dobieranych augmentacji, co bywa kosztowne i wprowadza uprzedzenia.

JEPA łączy zalety obu. Podobnie jak metody kontrastowe operuje w zwartej przestrzeni reprezentacji, a podobnie jak modele generatywne jest predykcyjna — ale nie potrzebuje ani odtwarzania pikseli, ani próbek negatywnych. Według DeepLearning.AI wczesny I-JEPA osiągnął porównywalną dokładność na ImageNet przy kilkukrotnie mniejszym nakładzie obliczeniowym niż generatywny Masked Autoencoder.

CechaModele generatywneModele kontrastoweJEPA
Przestrzeń predykcjisurowe piksele / tokenyprzestrzeń reprezentacjiprzestrzeń reprezentacji
Próbki negatywnenie dotyczywymaganeniepotrzebne
Traktowanie szumumodeluje szum (rozmycie)ignoruje przez augmentacjenaturalnie abstrahuje

Najważniejsze ograniczenia i wyzwania

Architektura ma realne ograniczenia, o których warto pamiętać.

Po pierwsze, część krytyków zauważa, że wielokrotne stosowanie predykcji JEPA w pętli czasowej sprowadza ją w istocie do autoregresji — tyle że w przestrzeni wektorów zamiast tokenów. Nie ma na razie dowodu, że taka ukryta autoregresja jest odporna na narastanie błędu w długich horyzontach, co jest znaną bolączką modeli autoregresyjnych.

Po drugie, zdolność do odrzucania szumu bywa wadą. Badania wskazują, że JEPA może tracić sprawność w środowiskach statycznych z dużą ilością nieregularnego szumu tła, gdzie modele generatywne radzą sobie lepiej.

Po trzecie, wokół wizji w pełni autonomicznych agentów planujących własne działania toczy się dyskusja o bezpieczeństwie. Mechanizmy motywacji wewnętrznej, które LeCun przewiduje dla takich systemów, budzą obawy części badaczy zajmujących się alignmentem AI.

Cała architektura wciąż pozostaje eksperymentalna — jej przewaga nad sprawdzonym skalowaniem modeli generatywnych nie jest jeszcze rozstrzygnięta.

Dlaczego to jest istotne?

JEPA jest istotna nie dlatego, że już dziś przewyższa modele językowe, lecz dlatego, że proponuje inną drogę w momencie, gdy niemal cała branża stawia na jeden pomysł: skalowanie autoregresyjnych modeli na coraz większych zbiorach tekstu. Jeśli LeCun ma rację, sama moc obliczeniowa nie wystarczy, by maszyny zyskały zdrowy rozsądek i rozumienie świata fizycznego — a wtedy potrzebne będzie podejście oparte na modelach świata.

Wartość JEPA jest więc po części techniczna, a po części strategiczna. Technicznie pokazuje, że predykcja w przestrzeni reprezentacji jest realną, wydajną alternatywą dla generowania pikseli i kosztownych metod kontrastowych. Strategicznie utrzymuje przy życiu pluralizm w badaniach nad AI — zapewnia, że nie wszystkie zasoby świata płyną w jednym kierunku.

Dla osób śledzących robotykę i embodied AI to architektura, którą warto rozumieć już teraz, bo właśnie tam — w sterowaniu fizycznymi maszynami uczącymi się z obserwacji — jej przewaga nad podejściem czysto generatywnym wydaje się najbardziej namacalna. To, czy stanie się fundamentem przyszłej autonomicznej inteligencji maszynowej, pozostaje otwartym pytaniem, ale jako kierunek badawczy jest jednym z najpoważniejszych wyzwań rzuconych dominacji wielkich modeli językowych.

JEPA to nie gotowy produkt ani konkurent ChatGPT, lecz architektoniczna propozycja patrzenia na uczenie maszynowe od strony rozumienia świata, a nie odtwarzania danych. Jej los rozstrzygnie się w najbliższych latach, w laboratoriach badawczych i na pierwszych robotach uczących się planować z samego patrzenia.

Źródła

  • Meta AI — I-JEPA: The first AI model based on Yann LeCun's vision — link
  • Meta AI — V-JEPA 2 world model and benchmarks — link
  • DeepLearning.AI — The Batch: I-JEPA learns by predicting representations — link
  • Reuters — Yann LeCun to leave Meta, launch AI startup focused on Advanced Machine Intelligence — link
  • Reuters — Ex-Meta AI chief Yann LeCun's AMI raises $1.03 billion for alternative AI approach — link
Udostępnij to opracowanie

Powiązane tematy