Model Tingkat S: GLM dan... | Teknium (e/λ) OKX Feed

3 bulan yang lalu, saya menyadari bahwa saya sangat bergantung pada perusahaan yang hanya peduli dengan kekuasaan, uang, dan kontrol. Pada titik ini Cursor, Claude, OpenAI, semuanya memiliki paket tak terbatas mereka. Saya menginginkan Mac M3 Ultra dengan RAM 512GB. Ahmad dan Pewdiepie meyakinkan saya sebaliknya. Inilah yang saya pelajari membangun AI Rig saya sendiri ----------------------------- Build ($3K-$10K) Ini adalah kinerja terbaik yang bisa Anda dapatkan di bawah 10 ribu USD • 4x RTX 3090 dengan 2x NVLink • CPU Epyc dengan 128 jalur PCIe • RAM DDR256-512GB 4 • Motherboard Romed8-2T • Rak khusus + pendinginan kipas • AX1600i PSU + riser berkualitas Biaya: $5K di AS, $8K di UE (terima kasih PPN) Pemeriksaan Realitas Kinerja Lebih dari 3090-an = model yang lebih besar, tetapi pengembalian yang berkurang mulai dengan cepat. Langkah berikutnya: 8-12 GPU untuk AWQ 4-bit atau BF16 Mix GLM 4.5-4.6 Tetapi pada titik ini, Anda telah mencapai batas perangkat keras konsumen. ---------------------------------------- Model yang berfungsi: Model S-Tier (Standar Emas) • GLM-4.5-Air: Cocok dengan Soneta 4.0, kode dengan sempurna membuatnya menjadi 50 tps dan 4k/s prefill yang stabil dengan vLLM • Hermes-70B: Memberi tahu Anda apa pun tanpa jailbreak Pekerja Kelas A • Jalur Qwen • Garis mistral • GPT-OSS Opsi B-Tier • Garis Gemma • Garis llama ------------------------------------ Tumpukan Perangkat Lunak yang Benar-benar Berfungsi Untuk pengkodean/agen: • Claude Code + Router (GLM-4.5-Air berjalan dengan sempurna) • Roocode Orchestrator: Tentukan mode (pengkodean, keamanan, pengulas, peneliti) Orkestrator mengelola ruang lingkup, memutar LLM lokal dengan konteks terfragmentasi, lalu mensintesis hasil. Anda dapat menggunakan GPT-5 atau Opus/GLM-4.6 sebagai orkestrator, dan model lokal sebagai yang lainnya! Opsi Perancah (Peringkat) 1. vLLM: Kinerja puncak + kegunaan, sangat cepat jika model cocok 2. exllamav3: Jauh lebih cepat, semua ukuran kuantitatif, tetapi perancah yang buruk 3. llama.cpp: Awal yang mudah, kecepatan awal yang baik, menurun berdasarkan konteks Rekomendasi UI • lmstudio: Terkunci ke UX yang llama.cpp tetapi hebat • 3 Sparks: Aplikasi Apple untuk LLM lokal • JanAI: Baik tetapi fitur terbatas ------------------------------- Intinya Mac Ultra M3 memberi Anda kinerja 60-80% dengan akses MLX. Tetapi jika Anda menginginkan yang terbaik, Anda membutuhkan Nvidia. Perjalanan ini mengajarkan saya: kemandirian sejati berasal dari memahami dan membangun alat Anda sendiri. Jika Anda tertarik dengan tolok ukur, saya telah banyak memposting di profil saya

8,73 rb

Konten pada halaman ini disediakan oleh pihak ketiga. Kecuali dinyatakan lain, OKX bukanlah penulis artikel yang dikutip dan tidak mengklaim hak cipta atas materi tersebut. Konten ini disediakan hanya untuk tujuan informasi dan tidak mewakili pandangan OKX. Konten ini tidak dimaksudkan sebagai dukungan dalam bentuk apa pun dan tidak dapat dianggap sebagai nasihat investasi atau ajakan untuk membeli atau menjual aset digital. Sejauh AI generatif digunakan untuk menyediakan ringkasan atau informasi lainnya, konten yang dihasilkan AI mungkin tidak akurat atau tidak konsisten. Silakan baca artikel yang terkait untuk informasi lebih lanjut. OKX tidak bertanggung jawab atas konten yang dihosting di situs pihak ketiga. Kepemilikan aset digital, termasuk stablecoin dan NFT, melibatkan risiko tinggi dan dapat berfluktuasi secara signifikan. Anda perlu mempertimbangkan dengan hati-hati apakah trading atau menyimpan aset digital sesuai untuk Anda dengan mempertimbangkan kondisi keuangan Anda.