Tabular Foundation Model
Jak działa
Pre-trening: próbkuj miliony syntetycznych zbiorów danych z bayesowskiego prior nad strukturalnymi związkami przyczynowymi (SCM); dla każdego zbioru wytrenuj transformer do przewidywania etykiet testowych na podstawie etykietowanego kontekstu treningowego. Inferencja: podaj transformerowi cały zbiór treningowy {(x_i, y_i)} jako kontekst plus punkty testowe x_test; model w jednym forward pass zwraca p(y_test | x_test, kontekst). Brak trenowania ani fine-tuningu na zbiorze docelowym (chyba że w wariancie TabPFN Enterprise z dodatkowym fine-tuningiem).
Rozwiązany problem
Eliminuje konieczność trenowania osobnego modelu i strojenia hiperparametrów dla każdego nowego zbioru tabelarycznego, dostarczając wysokiej jakości predykcje w sekundach na małych i średnich zbiorach danych (do 50K wierszy w TabPFN-2.5).
Mocne strony i ograniczenia
Komponenty
Generator syntetycznych zbiorów danych próbkujący z bayesowskiego prior nad funkcjami (Structural Causal Models, BNN, Gaussian Processes). W TabPFN stanowi dystrybucję, na której model jest pre-trenowany — efektywnie 'amortyzowana' Bayesian inference.
Oficjalna
Transformer przyjmuje cały zbiór treningowy (X_train, y_train) plus punkty testowe X_test jako kontekst i w jednym przebiegu zwraca p(y_test | x_test, D_train). Brak gradientowego trenowania na zadaniu docelowym.
Mechanizm zamiany wiersza tabeli na sekwencję tokenów. TabPFNv2 używa per-feature embeddingów + sample-level pozycji, traktując każdą komórkę jako token. Pozwala obsłużyć heterogeniczne typy cech (numeryczne, kategoryczne).
Oficjalna
Architektura TabPFNv2/2.5 łączy uwagę po wierszach (samples attend to other samples) i po cechach (features attend to other features) — kluczowa dla niezmienniczości na permutację cech i przykładów.
Końcowa warstwa zwraca rozkład predykcyjny — dla klasyfikacji softmax nad klasami, dla regresji parametry rozkładu (mixture of Gaussians lub bin-based dla TabPFNv2). Daje natywne miary niepewności.
Oficjalna
Implementacja
Cały zbiór treningowy musi zmieścić się w kontekście. Dla zbiorów >50K wierszy TabPFN wymaga subsamplingu lub ensemblingu — nie jest drop-in zastępcą XGBoost na big data.
Jeśli rzeczywiste dane mają strukturę nieobjętą przez syntetyczny prior (np. ekstremalna heteroskedastyczność, silne efekty czasowe), TabPFN może działać gorzej niż XGBoost.
W przeciwieństwie do XGBoost (CPU-friendly), TabPFN-2.5 wymaga GPU klasy A100/H100 dla zbiorów >10K wierszy. Może być nieakceptowalne w środowiskach edge/CPU-only.
Wagi TabPFNv2 i TabPFN-2.5 udostępnione na Hugging Face mają licencję non-commercial. Komercyjne użycie wymaga API Prior Labs lub komercyjnych platform (SageMaker, Azure AI Foundry, Databricks).
TabPFN nie pozwala (z definicji) na gradientowe douczanie na docelowym zbiorze. Dla zadań z silnym sygnałem domeny (np. medycznych biomarkerów) brak fine-tuningu może ograniczać wydajność względem dedykowanego modelu.
Ewolucja
Müller et al. publikują 'Transformers Can Do Bayesian Inference' — pokazując, że Transformer pre-trenowany na próbkach z prior aproksymuje posteriori w jednym forward pass.
Hollmann et al. udostępniają TabPFN — pierwszy PFN dla danych tabelarycznych. Ograniczenie: ~1K wierszy, ~100 cech, klasyfikacja.
Hollmann, Müller i Hutter zakładają Prior Labs jako spin-off Uniwersytetu we Freiburgu — komercjalizacja linii TabPFN.
Publikacja TabPFNv2 w Nature — wsparcie regresji, ~10K wierszy, two-way attention, prior oparty na SCM. Pokonuje XGBoost w state-of-the-art na małych/średnich zbiorach.
Skalowanie do 50K wierszy × 2K cech (TabPFN-2.5) dorównujące AutoGluon 1.4 z 4-godzinnym tuningiem na TabArena. Specjalizowany TabPFN-TS dla szeregów czasowych.
SAP ogłasza umowę przejęcia Prior Labs (>€1B w okresie 4 lat) — komercjalizacja TabPFN w stosie enterprise (S/4HANA, Joule).
Szczegóły techniczne
Złożoność obliczeniowa
Złożoność czasowa: O((N_train + N_test)² · d_model) per warstwa (klasyczna pełna uwaga) lub O((N_train + N_test) · d_model) z FlashAttention/sparse. Złożoność przestrzenna: O((N_train + N_test)² + (N_train + N_test) · F · d_model).
Wąskie gardło obliczeniowe
Inaczej niż XGBoost (który widzi dane raz w treningu), TabPFN przetwarza cały zbiór treningowy przy każdej predykcji. To czyni inferencję O(N_train²), co dla dużych zbiorów (>50K wierszy) staje się praktycznym ograniczeniem.
Paradygmat wykonania
Architektura jest dense Transformerem (bez MoE). Cały model aktywuje się przy każdej predykcji.
Równoległość
Brak gradientowego trenowania na zadaniu docelowym — to fundamentalna różnica względem XGBoost/RF.
Wymagania sprzętowe
TabPFN-2.5 jest projektowany pod GPU z Tensor Cores (A100/H100/B200). FP16/BF16 dense matmul + FlashAttention to dominujące operacje.
Architektura Transformer-based jest natywnie kompatybilna z TPU; brak oficjalnych deploymentów Prior Labs na TPU, ale to wykonalne (XLA/JAX).
TabPFNv1 i małe instancje TabPFNv2 (<1K wierszy) działają na CPU, ale opóźnienie rośnie szybko. Dla większych zbiorów CPU jest praktycznie wykluczone.