Modele S Tier: GLM i Hermes 👀👀🔥🥰
3 miesiące temu zdałem sobie sprawę, że jestem beznadziejnie uzależniony od korporacji, które dbają tylko o władzę, pieniądze i kontrolę.
W tym momencie Cursor, Claude, OpenAI, wszystkie zredukowały swoje nieograniczone plany.
Chciałem Maca M3 Ultra z 512 GB RAM. Ahmad i Pewdiepie przekonali mnie do czegoś innego.
Oto czego się nauczyłem budując własny zestaw AI
-----------------------------
Budowa (3K-10K USD)
To jest najwyższa wydajność, jaką możesz uzyskać poniżej 10k USD
• 4x RTX 3090 z 2x NVLink
• CPU Epyc z 128 liniami PCIe
• 256-512 GB RAM DDR4
• Płyta główna Romed8-2T
• Niestandardowa szafka + chłodzenie wentylatorami
• Zasilacz AX1600i + wysokiej jakości risery
Koszt: 5K USD w USA, 8K USD w UE (dzięki VAT)
Rzeczywistość wydajności
Więcej 3090 = większe modele, ale szybko następują malejące zwroty.
Następny krok: 8-12 GPU dla AWQ 4-bit lub BF16 Mix GLM 4.5-4.6
Ale w tym momencie osiągnąłeś limity sprzętu konsumenckiego.
----------------------------------------
Modele, które działają:
Modele S-Tier (Złoty Standard)
• GLM-4.5-Air: Pasuje do Sonnet 4.0, koduje bezbłędnie, osiągnąłem to do stabilnych 50 tps i 4k/s prefill z vLLM
• Hermes-70B: Powie ci wszystko bez jailbreakingu
A-Tier Robocze
• Linia Qwen
• Linia Mistral
• GPT-OSS
B-Tier Opcje
• Linia Gemma
• Linia Llama
------------------------------------
Stos oprogramowania, który naprawdę działa
Do kodowania/agentów:
• Claude Code + Router (GLM-4.5-Air działa perfekcyjnie)
• Roocode Orchestrator: Zdefiniuj tryby (kodowanie, bezpieczeństwo, recenzent, badacz)
Orkiestrator zarządza zakresem, uruchamia lokalne LLM z fragmentowanym kontekstem, a następnie syntetyzuje wyniki. Możesz użyć GPT-5 lub Opus/GLM-4.6 jako orkiestratora, a lokalne modele jako wszystko inne!
Opcje szkieletowe (usystematyzowane)
1. vLLM: Najwyższa wydajność + użyteczność, błyskawicznie szybkie, jeśli model się mieści
2. exllamav3: Dużo szybsze, wszystkie rozmiary kwantyzacji, ale słabe szkieletowanie
3. llama.cpp: Łatwy start, dobre początkowe prędkości, pogarsza się w miarę kontekstu
Rekomendacje UI
• lmstudio: Zablokowane na llama.cpp, ale świetne UX
• 3 Sparks: Aplikacja Apple dla lokalnych LLM
• JanAI: Dobre, ale ograniczone funkcjonalnie
-------------------------------
Podsumowanie
Mac Ultra M3 daje ci 60-80% wydajności z dostępem do MLX. Ale jeśli chcesz absolutnie najlepszego, potrzebujesz Nvidii.
Ta podróż nauczyła mnie: prawdziwa niezależność pochodzi z rozumienia i budowania własnych narzędzi.
Jeśli jesteś zainteresowany wynikami testów, opublikowałem wiele na swoim profilu.


8,74 tys.
75
Treści na tej stronie są dostarczane przez strony trzecie. O ile nie zaznaczono inaczej, OKX nie jest autorem cytowanych artykułów i nie rości sobie żadnych praw autorskich do tych materiałów. Treść jest dostarczana wyłącznie w celach informacyjnych i nie reprezentuje poglądów OKX. Nie mają one na celu jakiejkolwiek rekomendacji i nie powinny być traktowane jako porada inwestycyjna lub zachęta do zakupu lub sprzedaży aktywów cyfrowych. Treści, w zakresie w jakim jest wykorzystywana generatywna sztuczna inteligencja do dostarczania podsumowań lub innych informacji, mogą być niedokładne lub niespójne. Przeczytaj podlinkowany artykuł, aby uzyskać więcej szczegółów i informacji. OKX nie ponosi odpowiedzialności za treści hostowane na stronach osób trzecich. Posiadanie aktywów cyfrowych, w tym stablecoinów i NFT, wiąże się z wysokim stopniem ryzyka i może podlegać znacznym wahaniom. Musisz dokładnie rozważyć, czy handel lub posiadanie aktywów cyfrowych jest dla Ciebie odpowiednie w świetle Twojej sytuacji finansowej.