1. Szukamy hiperpłaszczyzny w·x + b = 0 maksymalizującej margines 2/‖w‖ przy ograniczeniach y_i(w·x_i + b) ≥ 1. 2. Przekształcamy do problemu optymalizacji kwadratowej QP (lub jego dualnej formy Lagrange'a), gdzie wektory nośne (support vectors) — punkty na marginesie — wyznaczają rozwiązanie. 3. Soft-margin (parametr C): dopuszczamy naruszenia marginesu przez zmienne relaksacyjne ξ_i ≥ 0. Duże C → mały margines, mało błędów treningu; małe C → szeroki margines, dopuszcza więcej błędów. 4. Kernel trick: zamiast jawnej transformacji φ(x), zastępujemy iloczyn skalarny funkcją jądra K(x_i, x_j) = φ(x_i)·φ(x_j). Popularne jądra: RBF K = exp(−γ‖x−x'‖²), wielomianowe, sigmoidalne. 5. Predykcja: sign(Σ α_i y_i K(x_i, x) + b), gdzie sumujemy tylko po wektorach nośnych (α_i > 0). 6. Trening: algorytm SMO (Sequential Minimal Optimization) rozkłada QP na podproblemy dwuwymiarowe, rozwiązywane analitycznie.
Klasyfikatory liniowe znajdują dowolną hiperpłaszczyznę separującą klasy, ale nie gwarantują dobrej generalizacji — istnieje nieskończenie wiele takich płaszczyzn. SVM rozwiązuje ten problem wybierając hiperpłaszczyznę o maksymalnym marginesie (odległości od najbliższych punktów każdej klasy), co minimalizuje ryzyko błędu na nowych danych. Problem nieliniowych granic decyzyjnych rozwiązuje sztuczka jądrowa, mapując dane do wyższego wymiaru bez jawnej transformacji.
Standardowe solvery SVM (SMO, libsvm) mają złożoność kwadratową lub sześcienną względem liczby próbek — dla n>100k trenowanie jest niepraktyczne. Alternatywy: SGD-SVM, LinearSVC (O(n)).
Wybór kernela (RBF, poly, linear) i parametrów C, γ ma duży wpływ na wynik — brak domyślnych wartości działających we wszystkich przypadkach. Grid search + CV jest kosztowny dla dużych zbiorów.
Przed erą deep learning SVM dominował w klasyfikacji tekstu (20 Newsgroups, Reuters-21578, RCV1) z dokładnością 85–92%, wyraźnie powyżej Naive Bayes. W rozpoznawaniu cyfr MNIST liniowy SVM osiąga ~92%, a SVM z jądrem RBF ~98,6%. W ImageNet 2010–2011 SVM był standardem do momentu wprowadzenia AlexNet (2012). Na małych zbiorach (poniżej 10 tys. próbek) SVM nadal jest konkurencyjny względem sieci neuronowych.