HeadFlash AI: Od centrów danych za 500 mld do modeli nowej generacji

OpenAI negocjuje budowę gigantycznego centrum danych za 500 mld dolarów przy wsparciu Nvidii

OpenAI prowadzi zaawansowane rozmowy w sprawie dzierżawy planowanego centrum danych o mocy 10 gigawatów w Ohio. Inwestycja, której koszt ma sięgnąć co najmniej 500 miliardów dolarów, powstanie na federalnych gruntach w hrabstwie Pike, dawniej wykorzystywanych do wzbogacania uranu. Deweloperem projektu jest SB Energy, spółka należąca do SoftBanku, jednego z inwestorów OpenAI. Firma OpenAI planuje podpisać 20-letnią umowę dzierżawy, największe zobowiązanie infrastrukturalne w swojej historii, a gwarantem płatności ma zostać Nvidia, która udzieli poręczenia ze swojego bilansu. Pierwsza faza o mocy 800 megawatów ma być gotowa do 2028 roku, jednak negocjacje wciąż trwają i plany mogą ulec zmianie. Równolegle OpenAI złożyło w poniedziałek poufny wniosek o pierwszą ofertę publiczną (IPO), co sygnalizuje rosnącą presję na pozyskanie kapitału. Projekt przypomina wcześniejszą inicjatywę Stargate ogłoszoną z Oracle i SoftBankiem, która jednak nie przyniosła znaczących postępów. Jeśli transakcja dojdzie do skutku, będzie to największe centrum danych na świecie i przełomowy krok w skali inwestycji w infrastrukturę AI.

OpenAI wants its biggest data center yet, and Nvidia would back the bill →

Yann LeCun inwestuje miliard dolarów w zastąpienie dużych modeli językowych architekturą JEPA

Yann LeCun, laureat nagrody Turinga i były główny naukowiec ds. AI w Meta, prowadzi inicjatywę wartą miliard dolarów mającą na celu odejście od dominujących dużych modeli językowych (LLM) na rzecz nowej architektury JEPA (Joint Embedding Predictive Architecture). LeCun argumentuje, że LLM, takie jak seria GPT od OpenAI, opierają się wyłącznie na statystycznych wzorcach językowych, przez co nie są w stanie uchwycić rzeczywistego rozumienia świata. JEPA, przeciwnie, uczy się poprzez modelowanie świata fizycznego przy użyciu abstrakcyjnych reprezentacji, czerpiąc inspirację z tego, jak ludzie – zwłaszcza niemowlęta – uczą się przez obserwację i interakcję z otoczeniem. Architektura JEPA składa się z sześciu modułów: Configuratora, Modułu Percepcji, Modelu Świata, Modułu Kosztu, Aktora i Pamięci Krótkotrwałej. System trenuje na ogromnych ilościach surowych danych wideo, aby przewidywać abstrakcyjne reprezentacje rzeczywistości, co ma umożliwić lepsze uogólnianie i adaptację przy minimalnym dostrajaniu. LeCun wierzy, że zakotwiczone w świecie reprezentacje są kluczem do osiągnięcia prawdziwej inteligencji, a JEPA może przezwyciężyć problemy halucynacji i malejących zwrotów ze skali, które trapią obecne modele językowe.

Why Yann LeCun is Spending $1 Billion to Replace LLMs with JEPA →

NVIDIA Nemotron 3 Ultra – model 550 miliardów parametrów bije na głowę większe modele dzięki architekturze mieszanej

NVIDIA zaprezentowała Nemotron 3 Ultra, model językowy z 550 miliardami parametrów, który dzięki architekturze mixture-of-experts aktywuje tylko 55 miliardów parametrów na zadanie, znacząco redukując zapotrzebowanie na zasoby przy zachowaniu wysokiej precyzji. Model oferuje okno kontekstowe o długości miliona tokenów, co pozwala mu efektywnie przetwarzać złożone, wieloetapowe przepływy pracy, szczególnie w zadaniach związanych z rozumowaniem, kodowaniem i długoterminowym podejmowaniem decyzji. Nemotron 3 Ultra przewyższa większe modele, takie jak GPT-4 czy Claude Opus, w testach agentowych – na benchmarku Pinchbench osiąga lepsze wyniki przy szybszym generowaniu tokenów. Kluczowe techniki treningowe obejmują destylację polityki na wielu poziomach oraz dostrajanie na dedykowanych zbiorach danych dla agentów. Model jest udostępniany z otwartymi wagami, co pozwala organizacjom na dostrajanie go do specyficznych zastosowań w automatyzacji, badaniach i obsłudze klienta. To pokazuje, że mniejsze, wyspecjalizowane modele mogą skutecznie konkurować z gigantami pod względem wydajności w konkretnych scenariuszach.

Why NVIDIA’s Nemotron 3 Ultra Outperforms Trillion-Parameter AI Models →

Mira Murati prezentuje pierwszy model swojego startupu Thinking Machines Lab – system współpracujący z człowiekiem w czasie rzeczywistym

Mira Murati, była dyrektor technologiczna OpenAI, w swoim pierwszym wywiadzie medialnym od założenia startupu Thinking Machines Lab ujawniła szczegóły budowanego systemu. Firma, która w niespełna rok zebrała 2 miliardy dolarów, opracowała model o nazwie TML-Interaction-Small – multimodalny system AI przetwarzający jednocześnie dźwięk, tekst i wideo, który współpracuje z człowiekiem niemal w czasie rzeczywistym, bez konieczności podawania promptów. Murati porównała tę wizję do „tandemu” – system nie działa autonomicznie, ale w ścisłej kooperacji z użytkownikiem, stale dostarczając wyniki na podstawie ciągłego strumienia danych. Model ma zostać udostępniony publicznie jeszcze w tym roku. W wywiadzie Murati odniosła się także do swojego doświadczenia w OpenAI, gdzie pełniła funkcję tymczasowego CEO po odwołaniu Sama Altmana w listopadzie 2023 roku. Stwierdziła, że bez jej interwencji OpenAI by „eksplodowało”, a Altman miał tendencję do „tworzenia chaosu”. Jej startup stawia na transparentność i równowagę decyzyjną, w przeciwieństwie do scentralizowanego modelu zarządzania w OpenAI.

Mira Murati Unveils Her Startup’s A.I. Model in First Interview Since OpenAI →

Anthropic wypuszcza Claude Fable 5 – model przewyższający konkurencję w kodowaniu i nauce

Anthropic zaprezentował piątą generację modeli Claude, na którą składają się Claude Fable 5 z zabezpieczeniami dla ogólnego użytku oraz Claude Mythos 5 bez ograniczeń, dostępny wyłącznie dla wybranych partnerów. Oba modele oparte są na tej samej bazie, ale Fable 5 – zdaniem firmy – osiąga najwyższe wyniki w niemal wszystkich benchmarkach. Na SWE-Bench Pro, mierzącym rozwiązywanie rzeczywistych zadań inżynierii oprogramowania, Fable 5 uzyskał 80,3%, podczas gdy Claude Opus 4.8 – 69,2%, a GPT 5.5 – 58,6%. W teście FrontierCode, oceniającym wymagające zadania programistyczne, Fable 5 osiągnął 29,3% wobec 13,4% dla Opusa i zaledwie 5,7% dla GPT 5.5. Fable 5 jest również bardziej wydajny pod względem tokenów – Stripe poinformował, że model skompresował pięć miesięcy prac inżynieryjnych do kilku dni, kończąc migrację w jednym dniu w bazie kodu Ruby liczącej 50 milionów linii. Model przewyższa konkurencję także w analizie finansowej (Hebbia Finance Benchmark) i zadaniach wizyjnych – potrafi odczytywać precyzyjne dane ze szczegółowych ilustracji naukowych. Ulepszono również pamięć długoterminową: model przypomina sobie informacje z wcześniejszych rozmów i może zarządzać własną pamięcią. To najsilniejszy dotąd model od Anthropic, który wyznacza nowe standardy w kodowaniu i rozumowaniu.

Anthropic releases Claude Fable 5 and Mythos 5 with major gains in coding and science →