Modele S Tier: GLM i Hermes... | Teknium (e/λ) OKX Feed

3 miesiące temu zdałem sobie sprawę, że jestem beznadziejnie uzależniony od korporacji, które dbają tylko o władzę, pieniądze i kontrolę. W tym momencie Cursor, Claude, OpenAI, wszystkie zredukowały swoje nieograniczone plany. Chciałem Maca M3 Ultra z 512 GB RAM. Ahmad i Pewdiepie przekonali mnie do czegoś innego. Oto czego się nauczyłem budując własny zestaw AI ----------------------------- Budowa (3K-10K USD) To jest najwyższa wydajność, jaką możesz uzyskać poniżej 10k USD • 4x RTX 3090 z 2x NVLink • CPU Epyc z 128 liniami PCIe • 256-512 GB RAM DDR4 • Płyta główna Romed8-2T • Niestandardowa szafka + chłodzenie wentylatorami • Zasilacz AX1600i + wysokiej jakości risery Koszt: 5K USD w USA, 8K USD w UE (dzięki VAT) Rzeczywistość wydajności Więcej 3090 = większe modele, ale szybko następują malejące zwroty. Następny krok: 8-12 GPU dla AWQ 4-bit lub BF16 Mix GLM 4.5-4.6 Ale w tym momencie osiągnąłeś limity sprzętu konsumenckiego. ---------------------------------------- Modele, które działają: Modele S-Tier (Złoty Standard) • GLM-4.5-Air: Pasuje do Sonnet 4.0, koduje bezbłędnie, osiągnąłem to do stabilnych 50 tps i 4k/s prefill z vLLM • Hermes-70B: Powie ci wszystko bez jailbreakingu A-Tier Robocze • Linia Qwen • Linia Mistral • GPT-OSS B-Tier Opcje • Linia Gemma • Linia Llama ------------------------------------ Stos oprogramowania, który naprawdę działa Do kodowania/agentów: • Claude Code + Router (GLM-4.5-Air działa perfekcyjnie) • Roocode Orchestrator: Zdefiniuj tryby (kodowanie, bezpieczeństwo, recenzent, badacz) Orkiestrator zarządza zakresem, uruchamia lokalne LLM z fragmentowanym kontekstem, a następnie syntetyzuje wyniki. Możesz użyć GPT-5 lub Opus/GLM-4.6 jako orkiestratora, a lokalne modele jako wszystko inne! Opcje szkieletowe (usystematyzowane) 1. vLLM: Najwyższa wydajność + użyteczność, błyskawicznie szybkie, jeśli model się mieści 2. exllamav3: Dużo szybsze, wszystkie rozmiary kwantyzacji, ale słabe szkieletowanie 3. llama.cpp: Łatwy start, dobre początkowe prędkości, pogarsza się w miarę kontekstu Rekomendacje UI • lmstudio: Zablokowane na llama.cpp, ale świetne UX • 3 Sparks: Aplikacja Apple dla lokalnych LLM • JanAI: Dobre, ale ograniczone funkcjonalnie ------------------------------- Podsumowanie Mac Ultra M3 daje ci 60-80% wydajności z dostępem do MLX. Ale jeśli chcesz absolutnie najlepszego, potrzebujesz Nvidii. Ta podróż nauczyła mnie: prawdziwa niezależność pochodzi z rozumienia i budowania własnych narzędzi. Jeśli jesteś zainteresowany wynikami testów, opublikowałem wiele na swoim profilu.

8,74 tys.

Treści na tej stronie są dostarczane przez strony trzecie. O ile nie zaznaczono inaczej, OKX nie jest autorem cytowanych artykułów i nie rości sobie żadnych praw autorskich do tych materiałów. Treść jest dostarczana wyłącznie w celach informacyjnych i nie reprezentuje poglądów OKX. Nie mają one na celu jakiejkolwiek rekomendacji i nie powinny być traktowane jako porada inwestycyjna lub zachęta do zakupu lub sprzedaży aktywów cyfrowych. Treści, w zakresie w jakim jest wykorzystywana generatywna sztuczna inteligencja do dostarczania podsumowań lub innych informacji, mogą być niedokładne lub niespójne. Przeczytaj podlinkowany artykuł, aby uzyskać więcej szczegółów i informacji. OKX nie ponosi odpowiedzialności za treści hostowane na stronach osób trzecich. Posiadanie aktywów cyfrowych, w tym stablecoinów i NFT, wiąże się z wysokim stopniem ryzyka i może podlegać znacznym wahaniom. Musisz dokładnie rozważyć, czy handel lub posiadanie aktywów cyfrowych jest dla Ciebie odpowiednie w świetle Twojej sytuacji finansowej.