Startup World Labs, założony przez legendarną badaczkę Fei-Fei Li, wkracza na rynek komercyjny ze swoim pierwszym produktem – platformą Marble, która zamienia zwykłe polecenia tekstowe i płaskie obrazy w pełnointeraktywne, edytowalne środowiska 3D. To przełomowy moment dla rozwoju tzw. przestrzennej inteligencji (Spatial AI), który może drastycznie obniżyć koszty produkcji w gamedevie, branży filmowej oraz przyspieszyć rozwój zaawansowanej robotyki.
Najważniejsze w skrócie
- Prawdziwe 3D, nie iluzja: Marble generuje spójne przestrzenie (jako siatki mesh lub Gaussian splats), eliminując problem "pływających" i deformujących się kadrów znany ze standardowych generatorów wideo.
- Innowacyjny edytor Chisel: Pozwala oddzielić fizyczną strukturę świata od jego stylu wizualnego (podobnie jak HTML i CSS w tworzeniu stron WWW), dając twórcom niespotykaną wcześniej kontrolę nad wynikiem.
- Otwarcie na deweloperów: Udostępniono publiczne World API, które umożliwia programistyczną generację przestrzeni i wbudowanie technologii bezpośrednio w zewnętrzne narzędzia architektoniczne czy silniki gier.
- Rozwiązanie problemu "wąskiego gardła": Narzędzie rozwiązuje kryzys braku treści w wirtualnej rzeczywistości (VR) oraz dostarcza nieskończoną liczbę symulowanych środowisk do trenowania robotów.
Zamiast płaskiego obrazu – w pełni grywalna i trwała przestrzeń
Przez ostatnie lata obserwowaliśmy eksplozję narzędzi z kategorii GenAI, które zrewolucjonizowały tworzenie tekstów i obrazów 2D. Kiedy na rynek wchodziły modele wideo, takie jak Sora od firmy OpenAI czy Emu opracowane przez Meta, wydawało się, że osiągnęliśmy szczyt możliwości generatywnych. Jednak tradycyjne generatory wideo tworzą jedynie iluzję przestrzeni – piksel po pikselu przewidują kolejną klatkę, co w przypadku zmiany kąta kamery często kończy się groteskowymi deformacjami i brakiem jakiejkolwiek stałości (tzw. object permanence).
Marble od World Labs podejmuje zupełnie inny wektor ataku. Nie jest generatorem wideo, lecz potężnym "modelem świata" (world model). Oznacza to, że system buduje pod spodem wewnętrzną, matematyczną reprezentację środowiska. Zamiast płaskiego zlepku kadrów, użytkownik otrzymuje spójną geometrię, oświetlenie i głębię. Wygenerowany z zaledwie jednego zdjęcia lub krótkiego opisu świat można eksplorować, obracać w nim kamerę bez utraty spójności i – co kluczowe dla profesjonalistów – pobrać na dysk. System wspiera eksport do formatu najwyższej wierności wizualnej (Gaussian splats), a także standardowe trójkątne siatki (collider meshes dla symulacji fizycznych oraz high-quality meshes dla wysokiej jakości renderingu).
Użytkownicy nie są już ograniczeni do pojedynczych ujęć z jednego kąta. Marble przyjmuje szeroki wachlarz danych wejściowych: tekst, pojedyncze fotografie, serie zdjęć, nagrania wideo czy panoramy sferyczne 360 stopni. To diametralna zmiana w dostępie do tworzenia w trzech wymiarach.
Od zarysu do fotorealizmu z narzędziem Chisel
Jednym z największych problemów sztucznej inteligencji w pracy twórczej był dotąd efekt "jednorękiego bandyty" – użytkownik wpisywał prompt i musiał liczyć na łut szczęścia, mając znikomą kontrolę nad drobnymi detalami. Marble odpowiada na ten problem zestawem autorskich, natywnych narzędzi do edycji.
Prawdziwą perełką w koronie World Labs jest eksperymentalne narzędzie "Chisel". To hybrydowy edytor 3D, który działa w oparciu o genialnie prostą koncepcję: separację struktury od stylu. Użytkownik może ręcznie zablokować zgrubny układ przestrzenny za pomocą podstawowych figur geometrycznych (prostopadłościany jako ściany, bryły jako meble), a następnie za pomocą promptu tekstowego nadać im ostateczny, dopieszczony wygląd. Jak zauważa współzałożyciel World Labs, Justin Johnson, przypomina to trochę tworzenie stron internetowych – gdzie bryły to szkielet HTML, a generatywny prompt to kaskadowe arkusze stylów (CSS) nakładające kolory, tekstury i oświetlenie. Użytkownik może chwycić wygenerowaną kanapę 3D i po prostu przenieść ją w inny kąt pokoju.
Dodatkowo model pozwala na funkcję "Expand" (rozszerzania wygenerowanych krawędzi bez widocznych szwów czy artefaktów) oraz "Composer mode". Ten ostatni to potężne rozwiązanie dla twórców pragnących łączyć abstrakcyjne przestrzenie w gigantyczne mapy – deweloperzy prezentowali już połączenie pokoju zrobionego z żółtego sera (z krzesłami z winogron) z futurystyczną stacją kosmiczną.
Modele biznesowe, World API i kontrowersje w gamedevie
Marble debiutuje jako produkt gotowy na rynek masowy, z elastycznym cennikiem opartym na subskrypcjach (tzw. model freemium). Podstawowy, darmowy plan pozwala na wygenerowanie czterech światów, co stanowi świetny poligon doświadczalny. Dla profesjonalistów przygotowano plany Standard (20 dolarów miesięcznie za 12 generacji i zaawansowaną edycję), Pro (35 dolarów za 25 generacji, prawa komercyjne i możliwość rozszerzania scen) oraz wyceniony na 95 dolarów plan Max dla "power userów".
Kluczowym wektorem dystrybucji ma być jednak World API. To rozwiązanie B2B przekształca proces generowania świata 3D w programowalną funkcję. Deweloperzy zewnętrznych aplikacji mogą integrować modele World Labs w swoich produktach bez konieczności utrzymywania własnej, drogiej i powolnej infrastruktury produkcyjnej (pipeline'ów) 3D.
Obecnie technologia ta spotyka się z mieszanym odbiorem ze strony branży gier wideo. Jak wynika z tegorocznych ankiet Game Developers Conference, aż jedna trzecia respondentów uważa, że generatywna sztuczna inteligencja ma negatywny wpływ na ich branżę (to wzrost o 12% w porównaniu z lat ubiegłych). Narastają obawy o kradzież własności intelektualnej, spadek ogólnej jakości oraz utratę miejsc pracy na rzecz optymalizacji kosztów – przykładem może być głośne śledztwo z ubiegłego roku dotyczące cięć etatów w zespołach artystycznych Activision Blizzard na rzecz implementacji algorytmów. Justin Johnson z World Labs uspokaja jednak nastroje. Zaznacza, że Marble nie ma na celu zastąpienia istniejących pipelinów produkcyjnych od A do Z. Ma raczej służyć do błyskawicznego tworzenia środowisk tła i przestrzeni otoczenia, które następnie artyści importują do silników takich jak Unity czy Unreal Engine, by tam dodawać interaktywną logikę, skrypty i mechaniki.
Symulacje, VR i robotyka – więcej niż gry
Zastosowanie Marble wykracza daleko poza samą rozrywkę i efekty wizualne (VFX), gdzie precyzja sterowania wirtualną kamerą eliminuje braki dawnych generatorów obrazu. Branża wirtualnej rzeczywistości (VR), na czele z goglami typu Vision Pro czy Quest 3, od lat cierpi na chroniczny "głód treści". Skalowanie produkcji interaktywnych map metodami rzemieślniczymi było do tej pory nieopłacalne. Marble generuje przestrzenie automatycznie natywnie gotowe do oglądania w VR.
Jednak prawdziwą stawką dla World Labs jest wsparcie dla rodzącego się ekosystemu, jakim jest Physical AI. Podczas gdy potężne systemy oparte o model językowy (LLM) mogły uczyć się na bilionach stron tekstowych z internetu, robotyka cierpi na dramatyczny deficyt danych treningowych. Odtworzenie wszystkich możliwych układów kuchni, magazynów czy hal fabrycznych dla maszyny uczącej się nawigacji było koszmarnie wolne i drogie. Dzięki platformom takim jak Marble i jego integracji z symulatorami pokroju NVIDIA Isaac Sim czy MuJoCo, programiści mogą generować tysiące zróżnicowanych fizycznie, spójnych środowisk syntetycznych na żądanie.
Wczesne adopcje widać już w architekturze i projektowaniu wnętrz (narzędzia takie jak Interior AI czy xFigura). Firmy architektoniczne mogą teraz przechodzić od luźnych szkiców koncepcyjnych do w pełni nawigowalnych, renderowanych wizualizacji 3D w kilka sekund, co całkowicie redukuje czas potrzebny na wstępną komunikację wizji z klientem.
Dlaczego to ważne?
Wkroczenie na rynek modelu Marble to coś więcej niż premiera kolejnej aplikacji dla artystów cyfrowych – to manifestacja przejścia branży AI z fazy analizy kognitywnej w fazę pełnej inteligencji przestrzennej (spatial intelligence). W klasycznym ujęciu algorytmy przetwarzały świat liniowo, ucząc się naśladownictwa na podstawie płaskich rzędów tekstu i dwuwymiarowych pikseli. Przez to systemy te, mimo swojej potęgi dedukcyjnej, pozostawały "ślepymi mózgami", niemającymi najmniejszego pojęcia o fizyce, świetle, grawitacji czy obiektach ukrytych za innymi obiektami.
Fei-Fei Li od samego początku podkreślała, że bez głębokiego, przestrzennego zrozumienia otoczenia nie zbudujemy maszyn naprawdę użytecznych w fizycznym wymiarze. Marble jest pomostem, który zamyka tę lukę. Po raz pierwszy widzimy komercyjnie dostępne i skalowalne narzędzie potrafiące "dedukować" architekturę trójwymiarową tylko na podstawie jednego obrazu.
Z biznesowego punktu widzenia to katalizator potężnej Digital Transformation dla sektorów inżynieryjnych i projektowych. Uwolnienie programistów od żmudnego, ręcznego modelowania geometrii (tzw. hard surface modeling i rzeźbienia) oznacza drastyczny spadek kosztów tworzenia prototypów. Jeśli maszyny nauczą się płynnie rozumieć, generować i modyfikować przestrzenie 3D, zyskają środowisko, w którym wirtualni agenci będą mogli planować i testować swoje działania przed ich wdrożeniem w fizycznym, prawdziwym świecie. W dalszej perspektywie przyspieszy to skok technologiczny nie tylko w robotyce i gamedevie, ale potencjalnie nawet w symulacjach wykorzystywanych w chirurgii i medycynie.
Co dalej?
Analizując rozwój modeli typu World Labs, na najbliższe miesiące i lata w branży możemy z dużym prawdopodobieństwem prognozować kilka istotnych trendów:
- Powszechne programowalne światy: Przestrzenie 3D przestaną być ostatecznym plikiem (assetem), a staną się dynamicznie generowanymi doświadczeniami. Oprogramowanie będzie tworzyć mapy i interaktywne pokoje "w locie", dostosowując się do akcji użytkownika na bieżąco, całkowicie zmieniając paradygmat rozgrywki i konsumpcji mediów.
- Akceleracja rozwoju ucieleśnionej sztucznej inteligencji (Embodied AI): Dzięki dostępowi do nieskończonej liczby hiperrealistycznych symulacji poprzez API, startupy pracujące nad humanoidalnymi robotami będą w stanie skrócić cykle uczenia ze zbrojenia metodą prób i błędów z kilku lat do zaledwie kilku tygodni treningu w chmurze.
- Demokratyzacja rozbudowanych projektów: Podobnie jak silniki typu Unreal i Unity obniżyły próg wejścia dla programistów dekadę temu, tak generatywne światy pozwolą niewielkim, zaledwie kilkuosobowym studiom niezależnym na tworzenie gier i doświadczeń wizualnych z jakością i rozmachem zarezerwowanym dotąd dla największych gigantów o budżetach liczonych w setkach milionów dolarów.
Źródła: TechCrunch, World Labs Official Site, AI Magazine, Ventureburn





