S級模型:GLM 和 Hermes 👀👀🔥🥰
三個月前,我意識到自己對那些只關心權力、金錢和控制的公司無法自拔。 此時,Cursor、Claude、OpenAI 都已經取消了他們的無限計劃。 我想要一台配備 512GB RAM 的 Mac M3 Ultra。Ahmad 和 Pewdiepie 說服我放棄了這個想法。 以下是我在建立自己的 AI Rig 時學到的東西 ----------------------------- 建造($3K-$10K) 這是你在 10K 美元以下能獲得的最佳性能 • 4x RTX 3090s 配 2x NVLink • Epyc CPU 配 128 PCIe 通道 • 256-512GB DDR4 RAM • Romed8-2T 主板 • 自訂機架 + 風扇冷卻 • AX1600i PSU + 高品質擴展卡 成本:美國 $5K,歐盟 $8K(感謝增值稅) 性能現實檢查 更多的 3090s = 更大的模型,但收益遞減很快就會出現。 下一步:8-12 個 GPU 用於 AWQ 4-bit 或 BF16 Mix GLM 4.5-4.6 但在這個時候,你已經達到了消費者硬體的極限。 ---------------------------------------- 可用的模型: S 級模型(黃金標準) • GLM-4.5-Air:與 Sonnet 4.0 相匹配,代碼無瑕疵,穩定達到 50 tps 和 4k/s 的預填充,使用 vLLM • Hermes-70B:告訴你任何事情而無需越獄 A 級工作馬 • Qwen 系列 • Mistral 系列 • GPT-OSS B 級選擇 • Gemma 系列 • Llama 系列 ------------------------------------ 實際可用的軟體堆疊 對於編碼/代理: • Claude Code + Router(GLM-4.5-Air 運行完美) • Roocode Orchestrator:定義模式(編碼、安全、審核、研究者) 該協調器管理範圍,啟動具有片段上下文的本地 LLM,然後綜合結果。你可以使用 GPT-5 或 Opus/GLM-4.6 作為協調器,其他一切都使用本地模型! 支撐選項(排名) 1. vLLM:峰值性能 + 可用性,如果模型適合則速度驚人 2. exllamav3:速度更快,所有量化大小,但支撐較差 3. llama.cpp:易於入門,初始速度良好,但隨著上下文的增加而退化 UI 推薦 • lmstudio:鎖定於 llama.cpp,但用戶體驗極佳 • 3 Sparks:本地 LLM 的 Apple 應用 • JanAI:不錯,但功能有限 ------------------------------- 底線 Mac Ultra M3 讓你獲得 60-80% 的性能,並可訪問 MLX。但如果你想要絕對的最佳性能,你需要 Nvidia。 這段旅程教會我:真正的獨立來自於理解和建立自己的工具。 如果你對基準測試感興趣,我在我的個人資料上發佈了很多。
查看原文
8,732
75
本頁面內容由第三方提供。除非另有說明,OKX 不是所引用文章的作者,也不對此類材料主張任何版權。該內容僅供參考,並不代表 OKX 觀點,不作為任何形式的認可,也不應被視為投資建議或購買或出售數字資產的招攬。在使用生成式人工智能提供摘要或其他信息的情況下,此類人工智能生成的內容可能不準確或不一致。請閱讀鏈接文章,瞭解更多詳情和信息。OKX 不對第三方網站上的內容負責。包含穩定幣、NFTs 等在內的數字資產涉及較高程度的風險,其價值可能會產生較大波動。請根據自身財務狀況,仔細考慮交易或持有數字資產是否適合您。