Common Crawl

Common Crawl Foundation

CommonCrawlCCFCommon Crawl Foundation
Beverly Hills, USA
Liczba pracowników
1–20
Rok założenia
2007
[ PROFIL: OPIS ]

Opis firmy

Common Crawl Foundation to zarejestrowana w Kalifornii organizacja non-profit 501(c)(3), założona w 2007 roku przez Gil Elbaza z misją demokratyzacji dostępu do danych internetowych. Organizacja buduje i utrzymuje otwarty repozytori danych z pełzania sieci (web crawl), dostępny bezpłatnie dla każdego. Dane zbierane są przez pełzacz CCBot (oparty na Apache Nutch), a archiwum przechowywane jest na Amazon S3 w ramach AWS Open Data Sponsorship Program. Zbiór danych liczy ponad 250 miliardów stron i jest rozbudowywany co miesiąc o kilka miliardów nowych stron. Do 2024 roku dane Common Crawl były cytowane w ponad 10 000 artykułów naukowych. Organizacja była i jest kluczowym dostawcą danych treningowych dla czołowych modeli językowych, w tym GPT-3 i GPT-4 (OpenAI), Gemini (Google DeepMind), LLaMA (Meta) oraz modeli Anthropic. Siedziba rejestrowa znajduje się w Beverly Hills (Kalifornia, USA). Przez długi czas Common Crawl zatrudniał jedną osobę; od 2023 roku organizacja rozbudowuje swój zespół i aktywnie pozyskuje dotacje. Dyrektorem wykonawczym jest Rich Skrenta, a przewodniczącym rady – Gil Elbaz.

[ PROFIL: KLASYFIKACJA ]

Klasyfikacja i profil

Status firmy
Aktywna
Etap rozwoju
Dojrzała
Giełda
Nie
Rok założenia
2007
Założyciele
Gil Elbaz
[ PROFIL: GEOGRAFIA ]

Geografia i obecność

HQ · Siedziba główna

USA

Beverly Hills

California

[ FINANSE: SKARBIEC ]

Partnerstwa · Finansowanie · Wycena

Historia_Transakcji

Finansowana przez Elbaz Family Foundation Trust (główny sponsor przez pierwszych ~15 lat) oraz datki od firm AI: OpenAI i Anthropic (każda po 250 000 USD w 2023 r.) i innych podmiotów z branży AI. Przechowywanie danych na AWS opłacane w ramach programu AWS Open Data Sponsorship.

Sieć_Partnerów
[ STRUKTURA: RELACJE ]

Relacje organizacyjne

Infrastruktura & inwestorzy
Finansowana przez

Amazon Web Services sponsoruje przechowywanie danych Common Crawl w ramach programu AWS Open Data Sponsorship.

Finansowana przezOpenAI

OpenAI przekazało darowiznę w wysokości 250 000 USD w 2023 roku.

Finansowana przezAnthropic

Anthropic przekazało darowiznę w wysokości 250 000 USD w 2023 roku.

Ostatnia aktualizacja: 15 kwietnia 2026