
Common Crawl Foundation to amerykańska organizacja non-profit 501(c)(3), która buduje i utrzymuje otwarty, publicznie dostępny repozytori danych z pełzania sieci (web crawl), wykorzystywany przez naukowców i firmy AI do trenowania modeli językowych.
Common Crawl Foundation to zarejestrowana w Kalifornii organizacja non-profit 501(c)(3), założona w 2007 roku przez Gil Elbaza z misją demokratyzacji dostępu do danych internetowych. Organizacja buduje i utrzymuje otwarty repozytori danych z pełzania sieci (web crawl), dostępny bezpłatnie dla każdego. Dane zbierane są przez pełzacz CCBot (oparty na Apache Nutch), a archiwum przechowywane jest na Amazon S3 w ramach AWS Open Data Sponsorship Program. Zbiór danych liczy ponad 250 miliardów stron i jest rozbudowywany co miesiąc o kilka miliardów nowych stron. Do 2024 roku dane Common Crawl były cytowane w ponad 10 000 artykułów naukowych. Organizacja była i jest kluczowym dostawcą danych treningowych dla czołowych modeli językowych, w tym GPT-3 i GPT-4 (OpenAI), Gemini (Google DeepMind), LLaMA (Meta) oraz modeli Anthropic. Siedziba rejestrowa znajduje się w Beverly Hills (Kalifornia, USA). Przez długi czas Common Crawl zatrudniał jedną osobę; od 2023 roku organizacja rozbudowuje swój zespół i aktywnie pozyskuje dotacje. Dyrektorem wykonawczym jest Rich Skrenta, a przewodniczącym rady – Gil Elbaz.
Założyciele
Amerykański przedsiębiorca, współzałożyciel Applied Semantics (przejętego przez Google); w 2007 r. założył Common Crawl, otwartą bazę zasobów internetu.
Klasyfikacja