Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
cierpisz na zmęczenie chatbotami?
frustruje cię, że singularność została odwołana?
szukasz czegoś nowego, co da ci nadzieję?
oto mój urojony, ale "hej, to ma sens" plan na zbudowanie superinteligencji w moim małym niezależnym laboratorium badawczym
(uwaga: wymienię dokładność na pedagogikę)
najpierw, tło:
Mam 33 lata i spędziłem ostatnie 22 lata na programowaniu. W tym czasie zadawałem wiele pytań o naturę obliczeń i zgromadziłem dość... osobliwe... spostrzeżenia. Kilka lat temu zbudowałem HVM, system zdolny do uruchamiania programów w ezoterycznym języku zwanym "Haskell" na GPU - tak, tym samym chipie, który umożliwił działanie głębokiego uczenia i zapoczątkował ten cały cykl AI.
ale jak Haskell ma się do AI?
cóż, to długa historia. jak mogą pamiętać starsi, wtedy to, co nazywaliśmy "AI", było... inne. niemal 3 dekady temu, po raz pierwszy w historii, komputer pokonał mistrza świata w szachach, wzbudzając wiele debat na temat AGI i singularności - tak jak dzisiaj!
system, nazwany Deep Blue, był bardzo różny od modeli, które mamy dzisiaj. nie używał transformerów. w ogóle nie używał sieci neuronowych. w rzeczywistości nie było "modelu". to była czysta "symboliczna AI", co oznacza, że był to po prostu stary algorytm, który skanował miliardy możliwych ruchów, szybciej i głębiej niż jakikolwiek człowiek, pokonując nas czystą siłą.
to wzbudziło falę obiecujących badań nad symboliczną AI. algorytmy ewolucyjne, grafy wiedzy, automatyczne dowodzenie twierdzeń, rozwiązania SAT/SMT, rozwiązania ograniczeń, systemy ekspertowe i wiele więcej. niestety, z biegiem czasu podejście to napotkało ścianę. ręcznie budowane zasady nie skalowały się, systemy symboliczne nie były w stanie *uczyć się* dynamicznie, a bańka pękła. rozpoczęła się nowa zima AI.
dopiero lata później, ciekawy zbieg okoliczności zmienił wszystko. badacze odkurzyli starą ideę - sieci neuronowe - ale tym razem mieli coś nowego: GPU. te chipy graficzne, pierwotnie stworzone do renderowania gier wideo, okazały się idealne do masowych mnożeń macierzy, które wymagały sieci neuronowe. nagle to, co zajmowało tygodnie, mogło być zrobione w godziny. głębokie uczenie eksplodowało, a oto jesteśmy dzisiaj, z transformerami, które zjadają świat.
ale oto rzecz: przenieśliśmy tylko *jedną* gałąź AI na GPU - połączeniową, numeryczną. strona symboliczna? wciąż utknęła w epoce CPU.
Haskell to wyjątkowy język, ponieważ łączy język dowodów (tj. idiom, którego używają matematycy do wyrażania twierdzeń) z językiem programowania (tj. tym, co deweloperzy używają do budowania aplikacji). to sprawia, że jest on wyjątkowo odpowiedni do rozumowania symbolicznego - dokładnie tego rodzaju obliczeń, które wykorzystał Deep Blue, ale teraz możemy je uruchamiać masowo równolegle na nowoczesnym sprzęcie.
(żeby być bardziej precyzyjnym, sama masowa równoległość GPU nie jest jedyną rzeczą, którą HVM wnosi do stołu. okazuje się, że w niektórych przypadkach prowadzi to również do *asymptotycznych* przyspieszeń. i to jest kluczowy powód, by wierzyć w nasze podejście: przeszłe metody symboliczne nie były tylko obliczeniowo głodne. były eksponencjalnie wolne, w sensie algorytmicznym. nic dziwnego, że nie działały. nie miały szans.)
moja teza jest prosta: teraz, gdy mogę uruchamiać Haskella na GPU, a biorąc pod uwagę to asymptotyczne przyspieszenie, jestem w stanie wskrzesić te stare metody symbolicznej AI, skalować je o rzędy wielkości i zobaczyć, co się stanie. może, tylko może, jedna z nich nas zaskoczy.
nasz pierwszy kamień milowy jest już w ruchu: zbudowaliśmy najszybszy na świecie program/syntezator dowodów, który nazywam SupGen. albo NeoGen. albo QuickGen? wydamy go jako aktualizację naszego języka "Bend", udostępniając go publicznie około końca października.
potem, później w tym roku, wykorzystamy go jako podstawę nowego programu badawczego, poszukując czystej architektury symbolicznej, która może faktycznie uczyć się z danych i budować generalizacje - nie poprzez spadek gradientu i propagację wsteczną, ale poprzez rozumowanie logiczne i syntezę programów.
nasze pierwsze eksperymenty będą bardzo proste (nie inaczej niż GPT-2), a głównym kamieniem milowym będzie posiadanie narzędzia do "uzupełniania następnego tokena", które jest w 100% wolne od sieci neuronowych.
jeśli to zadziała, może to być przełomowy skok poza transformery i głębokie uczenie, ponieważ jest to całkowicie nowe podejście, które najprawdopodobniej pozbędzie się wielu ograniczeń dziedziczonych przez GPT, które mają dzisiaj AI. nie tylko problemy z tokenizacją (jak R w truskawce), ale fundamentalne problemy, które uniemożliwiają GPT efektywne uczenie się i generalizowanie.
deluzjonalny? prawdopodobnie
warto spróbować? absolutnie
(teraz zgadnij, ile było generowane przez AI i którego modelu użyłem)
23,17K
Najlepsze
Ranking
Ulubione