Architektura

Tabular Foundation Model

2022AktywnyOpublikowany

Wzorzec: foundation model dla danych tabelarycznych przewidujący zero-shot, łączący in-context learning z pre-treningiem na syntetycznych priorach (PFN).

Kluczowa innowacja

Foundation model wstępnie trenowany na milionach syntetycznych zbiorów danych tabelarycznych, wykonujący zero-shot predykcje (klasyfikacja, regresja) w jednym przebiegu sieci, bez trenowania na docelowym zbiorze.

Kategoria

Architektura

Poziom abstrakcji

Pattern

Poziom operacji

ModelInferencja

Zastosowania

Klasyfikacja i regresja na danych tabelarycznych w finansach (scoring kredytowy, ryzyko), zdrowiu (wspomaganie decyzji klinicznych, profilowanie pacjentów), przemyśle (predictive maintenance), marketingu (MMM, demand forecasting), badaniach naukowych z ograniczoną liczbą próbek.

Jak działa

Pre-trening: próbkuj miliony syntetycznych zbiorów danych z bayesowskiego prior nad strukturalnymi związkami przyczynowymi (SCM); dla każdego zbioru wytrenuj transformer do przewidywania etykiet testowych na podstawie etykietowanego kontekstu treningowego. Inferencja: podaj transformerowi cały zbiór treningowy {(x_i, y_i)} jako kontekst plus punkty testowe x_test; model w jednym forward pass zwraca p(y_test | x_test, kontekst). Brak trenowania ani fine-tuningu na zbiorze docelowym (chyba że w wariancie TabPFN Enterprise z dodatkowym fine-tuningiem).

Rozwiązany problem

Eliminuje konieczność trenowania osobnego modelu i strojenia hiperparametrów dla każdego nowego zbioru tabelarycznego, dostarczając wysokiej jakości predykcje w sekundach na małych i średnich zbiorach danych (do 50K wierszy w TabPFN-2.5).

Mocne strony i ograniczenia

Mocne strony

✓Brak trenowania per-zbiór (sekundy zamiast godzin/dni). Brak strojenia hiperparametrów. Konkurencyjna lub przewyższająca dokładność względem strojonych GBM (XGBoost, AutoGluon) na zbiorach do 50K wierszy. Naturalna kalibracja niepewności. Robustność na brakujące wartości i cechy kategorialne.

Ograniczenia

✗Ograniczenia rozmiaru zbioru (TabPFN-2.5: 50K wierszy / 2K cech). Wagi pod licencją niekomercyjną (TabPFNv2/2.5 OSS) — komercja wymaga API/Enterprise. Inferencja kwadratowa względem rozmiaru kontekstu. Mniej wyjaśnialny niż klasyczne drzewa decyzyjne. Wciąż wczesny ekosystem narzędzi.

Komponenty

Synthetic PriorŹródło różnorodności pre-treningu zastępujące rzeczywiste zbiory danych

Generator syntetycznych zbiorów danych próbkujący z bayesowskiego prior nad funkcjami (Structural Causal Models, BNN, Gaussian Processes). W TabPFN stanowi dystrybucję, na której model jest pre-trenowany — efektywnie 'amortyzowana' Bayesian inference.

Structural Causal Models (SCM)Główny prior w TabPFNv2 — losowe DAG-i z funkcjami nieliniowymi.

Bayesian Neural NetworksPierwotny prior w TabPFNv1.

Gaussian ProcessesKlasyczny prior dla regresji w pracy PFN (Müller 2022).

Oficjalna

In-Context Learning EngineAproksymacja posteriori p(y|x,D) w jednym forward pass

Transformer przyjmuje cały zbiór treningowy (X_train, y_train) plus punkty testowe X_test jako kontekst i w jednym przebiegu zwraca p(y_test | x_test, D_train). Brak gradientowego trenowania na zadaniu docelowym.

INF = liczba cech, +1 dla y (NaN dla testowych), N_train + N_test ≤ context_length.

OUTK = liczba klas (klasyfikacja) lub 1 (regresja, parametry rozkładu).

Feature/Sample TokenizationMostkowanie danych tabelarycznych do reprezentacji sekwencyjnej Transformera

Mechanizm zamiany wiersza tabeli na sekwencję tokenów. TabPFNv2 używa per-feature embeddingów + sample-level pozycji, traktując każdą komórkę jako token. Pozwala obsłużyć heterogeniczne typy cech (numeryczne, kategoryczne).

Oficjalna

Two-Way (Row+Column) AttentionNiezmienniczość permutacyjna i modelowanie zależności między cechami i przykładami

Architektura TabPFNv2/2.5 łączy uwagę po wierszach (samples attend to other samples) i po cechach (features attend to other features) — kluczowa dla niezmienniczości na permutację cech i przykładów.

Posterior Predictive HeadWyjście probabilistyczne z naturalną kalibracją

Końcowa warstwa zwraca rozkład predykcyjny — dla klasyfikacji softmax nad klasami, dla regresji parametry rozkładu (mixture of Gaussians lub bin-based dla TabPFNv2). Daje natywne miary niepewności.

Oficjalna

Implementacja

Implementacje referencyjne

TabPFN (Prior Labs)

Python · Prior Labs

Oficjalna

TabPFN — Hugging Face

Prior Labs

Oficjalna

Pułapki implementacyjne

Brak skalowania do dużych zbiorów (>50K wierszy)Wysoka

Cały zbiór treningowy musi zmieścić się w kontekście. Dla zbiorów >50K wierszy TabPFN wymaga subsamplingu lub ensemblingu — nie jest drop-in zastępcą XGBoost na big data.

Rozwiązanie:Stratified subsampling, ensembling po subsamplach, lub klasyczny GBDT dla N>50K. Ewentualnie przyszłe wersje (skalowanie kontekstu).

Niedopasowanie prior do realnej dystrybucji danychŚrednia

Jeśli rzeczywiste dane mają strukturę nieobjętą przez syntetyczny prior (np. ekstremalna heteroskedastyczność, silne efekty czasowe), TabPFN może działać gorzej niż XGBoost.

Rozwiązanie:Diagnostyka rezydualna, porównanie z baseline GBDT na każdym zadaniu, użycie wyspecjalizowanych wariantów (TabPFN-TS dla szeregów czasowych).

Wymóg GPU dla średnich i dużych zbiorówŚrednia

W przeciwieństwie do XGBoost (CPU-friendly), TabPFN-2.5 wymaga GPU klasy A100/H100 dla zbiorów >10K wierszy. Może być nieakceptowalne w środowiskach edge/CPU-only.

Rozwiązanie:Użycie API Prior Labs / SageMaker / Azure AI Foundry / Databricks zamiast self-hostingu, lub fallback do GBDT.

Niekomercyjna licencja wag TabPFNv2/2.5Wysoka

Wagi TabPFNv2 i TabPFN-2.5 udostępnione na Hugging Face mają licencję non-commercial. Komercyjne użycie wymaga API Prior Labs lub komercyjnych platform (SageMaker, Azure AI Foundry, Databricks).

Rozwiązanie:Sprawdź licencję modelu. Dla produkcji komercyjnej — API lub managed offering, nie self-host wag z HF.

Brak fine-tuningu na zadaniu docelowymNiska

TabPFN nie pozwala (z definicji) na gradientowe douczanie na docelowym zbiorze. Dla zadań z silnym sygnałem domeny (np. medycznych biomarkerów) brak fine-tuningu może ograniczać wydajność względem dedykowanego modelu.

Rozwiązanie:Feature engineering, ensembling z modelem domenowym, lub klasyczny model jeśli ICL nie wystarcza.

Ewolucja

Oryginalny paper · 2022 · ICLR 2022 · Samuel Müller

Transformers Can Do Bayesian Inference

Samuel Müller, Noah Hollmann, Sebastian Pineda Arango, Josif Grabocka, Frank Hutter

2021

Prior-Fitted Networks (PFN) — koncepcja

Punkt przełomowy

Müller et al. publikują 'Transformers Can Do Bayesian Inference' — pokazując, że Transformer pre-trenowany na próbkach z prior aproksymuje posteriori w jednym forward pass.

Transformers Can Do Bayesian Inference (artykuł)

2022

TabPFN v1

Punkt przełomowy

Hollmann et al. udostępniają TabPFN — pierwszy PFN dla danych tabelarycznych. Ograniczenie: ~1K wierszy, ~100 cech, klasyfikacja.

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second (artykuł)

2024

Powstanie Prior Labs (Freiburg)

Hollmann, Müller i Hutter zakładają Prior Labs jako spin-off Uniwersytetu we Freiburgu — komercjalizacja linii TabPFN.

2025

TabPFN v2 (Nature)

Punkt przełomowy

Publikacja TabPFNv2 w Nature — wsparcie regresji, ~10K wierszy, two-way attention, prior oparty na SCM. Pokonuje XGBoost w state-of-the-art na małych/średnich zbiorach.

Accurate predictions on small data with a tabular foundation model (artykuł)

2025

TabPFN-2.5 i TabPFN-TS

Skalowanie do 50K wierszy × 2K cech (TabPFN-2.5) dorównujące AutoGluon 1.4 z 4-godzinnym tuningiem na TabArena. Specjalizowany TabPFN-TS dla szeregów czasowych.

2025

Akwizycja Prior Labs przez SAP

SAP ogłasza umowę przejęcia Prior Labs (>€1B w okresie 4 lat) — komercjalizacja TabPFN w stosie enterprise (S/4HANA, Joule).

Szczegóły techniczne

Złożoność obliczeniowa

Złożoność czasowa: O((N_train + N_test)² · d_model) per warstwa (klasyczna pełna uwaga) lub O((N_train + N_test) · d_model) z FlashAttention/sparse. Złożoność przestrzenna: O((N_train + N_test)² + (N_train + N_test) · F · d_model).

Wąskie gardło obliczeniowe

Pełny zbiór treningowy w kontekście

Inaczej niż XGBoost (który widzi dane raz w treningu), TabPFN przetwarza cały zbiór treningowy przy każdej predykcji. To czyni inferencję O(N_train²), co dla dużych zbiorów (>50K wierszy) staje się praktycznym ograniczeniem.

Zależy od

Training set size (N_train)Number of features (F)GPU memory

Paradygmat wykonania

Tryb główny

dense

Architektura jest dense Transformerem (bez MoE). Cały model aktywuje się przy każdej predykcji.

Wzorzec aktywacji

all_paths_active

Mechanizm routingu

Równoległość

Poziom równoległości

fully_parallel

Brak gradientowego trenowania na zadaniu docelowym — to fundamentalna różnica względem XGBoost/RF.

Zakres

traininginferenceacross_tokensacross_devices

Ograniczenia

!Pre-trening TabPFN to niezależne syntetyczne zbiory danych — w pełni równoległy across_devices (każdy GPU widzi inny zbiór). Po pre-treningu inferencja jest pojedynczym forward passem.

Wymagania sprzętowe

Podstawowe

TabPFN-2.5 jest projektowany pod GPU z Tensor Cores (A100/H100/B200). FP16/BF16 dense matmul + FlashAttention to dominujące operacje.

Dobry fit

Architektura Transformer-based jest natywnie kompatybilna z TPU; brak oficjalnych deploymentów Prior Labs na TPU, ale to wykonalne (XLA/JAX).

Ograniczony

TabPFNv1 i małe instancje TabPFNv2 (<1K wierszy) działają na CPU, ale opóźnienie rośnie szybko. Dla większych zbiorów CPU jest praktycznie wykluczone.

Źródła

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second

Paper

Accurate predictions on small data with a tabular foundation model (Nature, 2025)

Paper

Transformers Can Do Bayesian Inference (PFN, Müller et al. 2022)

Paper

Prior Labs — TabPFN

official_website