Common Crawl

01 · O firmie

Założona 2007 · Beverly Hills, USA

Common Crawl Foundation to zarejestrowana w Kalifornii organizacja non-profit 501(c)(3), założona w 2007 roku przez Gil Elbaza z misją demokratyzacji dostępu do danych internetowych. Organizacja buduje i utrzymuje otwarty repozytori danych z pełzania sieci (web crawl), dostępny bezpłatnie dla każdego. Dane zbierane są przez pełzacz CCBot (oparty na Apache Nutch), a archiwum przechowywane jest na Amazon S3 w ramach AWS Open Data Sponsorship Program. Zbiór danych liczy ponad 250 miliardów stron i jest rozbudowywany co miesiąc o kilka miliardów nowych stron. Do 2024 roku dane Common Crawl były cytowane w ponad 10 000 artykułów naukowych. Organizacja była i jest kluczowym dostawcą danych treningowych dla czołowych modeli językowych, w tym GPT-3 i GPT-4 (OpenAI), Gemini (Google DeepMind), LLaMA (Meta) oraz modeli Anthropic. Siedziba rejestrowa znajduje się w Beverly Hills (Kalifornia, USA). Przez długi czas Common Crawl zatrudniał jedną osobę; od 2023 roku organizacja rozbudowuje swój zespół i aktywnie pozyskuje dotacje. Dyrektorem wykonawczym jest Rich Skrenta, a przewodniczącym rady – Gil Elbaz.

Założyciele

Gil Elbaz
Założyciel
Amerykański przedsiębiorca, współzałożyciel Applied Semantics (przejętego przez Google); w 2007 r. założył Common Crawl, otwartą bazę zasobów internetu.

02 · Co robią

Domena działania

03 · Geografia

Obecność globalna

HQ Beverly Hills

04 · Metryki

Skala i finansowanie

założona 2007

2007założona

mniej niż 20 (mała organizacja non-profit)pracownicy

Finansowana przez Elbaz Family Foundation Trust (główny sponsor przez pierwszych ~15 lat) oraz datki od firm AI: OpenAI i Anthropic (każda po 250 000 USD w 2023 r.) i innych podmiotów z branży AI. Przechowywanie danych na AWS opłacane w ramach programu AWS Open Data Sponsorship.łączne finansowanie

matureetap rozwoju

Prywatnanienotowana

activestatus

06 · Relacje

Relacje organizacyjne

3 relacje strategiczne

Relacje strategiczne

Finansowana przez
Amazon Web Services sponsoruje przechowywanie danych Common Crawl w ramach programu AWS Open Data Sponsorship.
Finansowana przez
OpenAIOpenAI przekazało darowiznę w wysokości 250 000 USD w 2023 roku.
Finansowana przez
AnthropicAnthropic przekazało darowiznę w wysokości 250 000 USD w 2023 roku.

07 · Klasyfikacja

Profil i metadane

3 klasyfikacja · 7 linki zewnętrzne

Klasyfikacja

Statusactive
Etap rozwojumature
Notowana na giełdzieNieprywatna

Linki zewnętrzne