Modelos S Tier: GLM e Hermes... | Teknium (e/λ) OKX Feed

3 meses atrás, percebi que era irremediavelmente dependente de corporações que só se preocupam com poder, dinheiro e controle. Neste ponto, Cursor, Claude, OpenAI, todos haviam robusto seus planos ilimitados. Eu queria um Mac M3 Ultra com 512 GB de RAM. Ahmad e Pewdiepie me convenceram do contrário. Aqui está o que aprendi construindo meu próprio AI Rig ----------------------------- A construção ($ 3K - $ 10K) Este é o melhor desempenho que você pode obter abaixo de 10k USD • 4x RTX 3090s com 2x NVLink • CPU Epyc com 128 pistas PCIe • 256-512 GB de RAM DDR4 • Placa-mãe Romed8-2T • Rack personalizado + resfriamento por ventilador • Fonte de alimentação AX1600i + risers de qualidade Custo: $ 5K nos EUA, $ 8K na UE (obrigado IVA) Verificação da realidade do desempenho Mais 3090s = modelos maiores, mas retornos decrescentes entram em ação rapidamente. Próxima etapa: 8-12 GPUs para AWQ de 4 bits ou BF16 Mix GLM 4.5-4.6 Mas, neste ponto, você atingiu os limites de hardware do consumidor. ---------------------------------------- Modelos que funcionam: Modelos S-Tier (o padrão de ouro) • GLM-4.5-Air: Corresponde ao Sonnet 4.0, os códigos conseguiram com perfeição até 50 tps estáveis e pré-preenchimento de 4k/s com vLLM • Hermes-70B: Diz qualquer coisa sem jailbreak Cavalos de batalha de nível A • Linha Qwen • Linha Mistral • GPT-OSS Opções de nível B • Linha Gemma • Linha Lhama ------------------------------------ A pilha de software que realmente funciona Para codificação/agentes: • Claude Code + Router (GLM-4.5-Air funciona perfeitamente) • Roocode Orchestrator: Definir modos (codificação, segurança, revisor, pesquisador) O orquestrador gerencia o escopo, cria LLMs locais com contexto fragmentado e, em seguida, sintetiza os resultados. Você pode usar GPT-5 ou Opus/GLM-4.6 como orquestrador e modelos locais como todo o resto! Opções de andaimes (classificadas) 1. vLLM: Desempenho máximo + usabilidade, extremamente rápido se o modelo se encaixar 2. exllamav3: Muito mais rápido, todos os tamanhos quant, mas andaimes pobres 3. llama.cpp: Início fácil, boas velocidades iniciais, degrada-se sobre o contexto Recomendações de interface do usuário • lmstudio: Bloqueado para llama.cpp, mas ótimo UX • 3 Sparks: aplicativo da Apple para LLMs locais • JanAI: Bom, mas com recursos limitados ------------------------------- Ponto-chave O Mac Ultra M3 oferece desempenho de 60 a 80% com acesso MLX. Mas se você quer o melhor absoluto, precisa da Nvidia. Essa jornada me ensinou: a verdadeira independência vem da compreensão e da construção de suas próprias ferramentas. Se você estiver interessado em benchmarks, postei muito no meu perfil

8,74 mil

O conteúdo desta página é fornecido por terceiros. A menos que especificado de outra forma, a OKX não é a autora dos artigos mencionados e não reivindica direitos autorais sobre os materiais apresentados. O conteúdo tem um propósito meramente informativo e não representa as opiniões da OKX. Ele não deve ser interpretado como um endosso ou aconselhamento de investimento de qualquer tipo, nem como uma recomendação para compra ou venda de ativos digitais. Quando a IA generativa é utilizada para criar resumos ou outras informações, o conteúdo gerado pode apresentar imprecisões ou incoerências. Leia o artigo vinculado para mais detalhes e informações. A OKX não se responsabiliza pelo conteúdo hospedado em sites de terceiros. Possuir ativos digitais, como stablecoins e NFTs, envolve um risco elevado e pode apresentar flutuações significativas. Você deve ponderar com cuidado se negociar ou manter ativos digitais é adequado para sua condição financeira.