Modely úrovně S: GLM a Hermes 👀👀🔥🥰
Před 3 měsíci jsem si uvědomil, že jsem beznadějně závislý na korporacích, které se starají pouze o moc, peníze a kontrolu. V tomto okamžiku Cursor, Claude, OpenAI, všichni měli své neomezené plány. Chtěl jsem Mac M3 Ultra s 512 GB RAM. Ahmad a Pewdiepie mě přesvědčili o opaku. Zde je to, co jsem se naučil při vytváření vlastního AI Rigu ----------------------------- Sestavení (3 tisíce $ - 10 tisíc $) Jedná se o špičkový výkon, který můžete získat pod 10 tisíc USD • 4x RTX 3090s s 2x NVLink • Procesor Epyc se 128 PCIe linkami • 256-512GB DDR4 RAM • Základní deska Romed8-2T • Vlastní chlazení stojanu + ventilátoru • Napájecí zdroj AX1600i + kvalitní stoupačky Cena: 5 tisíc dolarů v USA, 8 tisíc dolarů v EU (díky DPH) Kontrola výkonu v realitě Více 3090 = větší modely, ale klesající výnosy se rychle dostavují. Další krok: 8-12 GPU pro AWQ 4-bit nebo BF16 Mix GLM 4.5-4.6 V tuto chvíli jste však narazili na limity spotřebitelského hardwaru. ---------------------------------------- Modely, které fungují: S-Tier modely (zlatý standard) • GLM-4.5-Air: Odpovídá Sonetu 4.0, kódy to bezchybně dostaly na stabilních 50 tps a 4k/s předplnění s vLLM Hermes-70B: Řekne vám cokoli bez útěku z vězení Tažní koně A-Tier • Linka Qwen • Řada Mistral • GPT-OSS Možnosti B-úrovně • Řada Gemma • Lamá linie ------------------------------------ Softwarový balíček, který skutečně funguje Pro kódování/agenty: • Router Claude Code + (GLM-4.5-Air běží perfektně) • Roocode Orchestrator: Definujte režimy (kódování, zabezpečení, recenzent, výzkumník) Orchestrátor spravuje rozsah, roztočí místní LLM s fragmentovaným kontextem a poté syntetizuje výsledky. Můžete použít GPT-5 nebo Opus/GLM-4.6 jako orchestrátor a místní modely jako vše ostatní! Možnosti lešení (hodnocení) 1. vLLM: Špičkový výkon + použitelnost, bleskově rychlá, pokud model sedí 2. exllamav3: Mnohem rychlejší, všechny kvantové velikosti, ale špatná kostra 3. llama.cpp: Snadný start, dobré počáteční rychlosti, degradace v kontextu Doporučení uživatelského rozhraní • lmstudio: Uzamčeno na llama.cpp ale skvělé UX • 3 Sparks: Aplikace Apple pro místní LLM • JanAI: Fajn, ale s omezenými funkcemi ------------------------------- Sečteno a podtrženo Mac Ultra M3 vám poskytne 60–80% výkon s přístupem MLX. Pokud ale chcete to absolutně nejlepší, potřebujete Nvidii. Tato cesta mě naučila, že skutečná nezávislost pochází z pochopení a vytváření vlastních nástrojů. Pokud vás zajímají benchmarky, hodně jsem jich zveřejnil na svém profilu
Zobrazit originál
8,74 tis.
75
Obsah na této stránce poskytují třetí strany. Není-li uvedeno jinak, společnost OKX není autorem těchto informací a nenárokuje si u těchto materiálů žádná autorská práva. Obsah je poskytován pouze pro informativní účely a nevyjadřuje názory společnosti OKX. Nejedná se o doporučení jakéhokoli druhu a nemělo by být považováno za investiční poradenství ani nabádání k nákupu nebo prodeji digitálních aktiv. Tam, kde se k poskytování souhrnů a dalších informací používá generativní AI, může být vygenerovaný obsah nepřesný nebo nekonzistentní. Další podrobnosti a informace naleznete v připojeném článku. Společnost OKX neodpovídá za obsah, jehož hostitelem jsou externí weby. Držená digitální aktiva, včetně stablecoinů a tokenů NFT, zahrnují vysokou míru rizika a mohou značně kolísat. Měli byste pečlivě zvážit, zde je pro vás obchodování s digitálními aktivy nebo jejich držení vhodné z hlediska vaší finanční situace.