Modelli di livello S: GLM e Hermes 👀👀🔥🥰
3 mesi fa, mi sono reso conto di essere disperatamente dipendente da aziende che si preoccupano solo di potere, denaro e controllo. A questo punto Cursor, Claude, OpenAI, avevano tutti annullato i loro piani illimitati. Volevo un Mac M3 Ultra con 512GB di RAM. Ahmad e Pewdiepie mi hanno convinto del contrario. Ecco cosa ho imparato costruendo il mio AI Rig ----------------------------- La Costruzione ($3K-$10K) Questa è la massima prestazione che puoi ottenere sotto i 10k USD • 4x RTX 3090 con 2x NVLink • CPU Epyc con 128 linee PCIe • 256-512GB di RAM DDR4 • Scheda madre Romed8-2T • Rack personalizzato + raffreddamento a ventola • PSU AX1600i + riser di qualità Costo: $5K negli Stati Uniti, $8K in UE (grazie all'IVA) Controllo della Realtà delle Prestazioni Più 3090 = modelli più grandi, ma i rendimenti decrescenti si fanno sentire rapidamente. Prossimo passo: 8-12 GPU per AWQ 4-bit o BF16 Mix GLM 4.5-4.6 Ma a questo punto, hai raggiunto i limiti dell'hardware consumer. ---------------------------------------- Modelli che funzionano: Modelli di Classe S (Il Golden Standard) • GLM-4.5-Air: Eguaglia Sonnet 4.0, codifica senza errori, raggiunto fino a 50 tps e 4k/s prefill con vLLM • Hermes-70B: Ti dice qualsiasi cosa senza jailbreak Cavalli da Lavoro di Classe A • Linea Qwen • Linea Mistral • GPT-OSS Opzioni di Classe B • Linea Gemma • Linea Llama ------------------------------------ Il Software Stack che Funziona Davvero Per codifica/agenti: • Claude Code + Router (GLM-4.5-Air funziona perfettamente) • Roocode Orchestrator: Definisci modalità (codifica, sicurezza, revisore, ricercatore) L'orchestratore gestisce l'ambito, avvia LLM locali con contesto frammentato, poi sintetizza i risultati. Puoi usare GPT-5 o Opus/GLM-4.6 come orchestratore, e modelli locali come tutto il resto! Opzioni di Scaffolding (Classificate) 1. vLLM: Massime prestazioni + usabilità, velocissimo se il modello si adatta 2. exllamav3: Molto più veloce, tutte le dimensioni di quantizzazione, ma scaffolding scarso 3. llama.cpp: Facile da iniziare, buone velocità iniziali, degrada con il contesto Raccomandazioni UI • lmstudio: Bloccato su llama.cpp ma ottima UX • 3 Sparks: App Apple per LLM locali • JanAI: Buona ma limitata nelle funzionalità ------------------------------- Conclusione Mac Ultra M3 ti offre il 60-80% delle prestazioni con accesso a MLX. Ma se vuoi il massimo, hai bisogno di Nvidia. Questo viaggio mi ha insegnato: la vera indipendenza deriva dalla comprensione e dalla costruzione dei propri strumenti. Se sei interessato ai benchmark, ho pubblicato molto sul mio profilo.
Mostra originale
7.872
70
Il contenuto di questa pagina è fornito da terze parti. Salvo diversa indicazione, OKX non è l'autore degli articoli citati e non rivendica alcun copyright sui materiali. Il contenuto è fornito solo a scopo informativo e non rappresenta le opinioni di OKX. Non intende essere un'approvazione di alcun tipo e non deve essere considerato un consiglio di investimento o una sollecitazione all'acquisto o alla vendita di asset digitali. Nella misura in cui l'IA generativa viene utilizzata per fornire riepiloghi o altre informazioni, tale contenuto generato dall'IA potrebbe essere impreciso o incoerente. Leggi l'articolo collegato per ulteriori dettagli e informazioni. OKX non è responsabile per i contenuti ospitati su siti di terze parti. Gli holding di asset digitali, tra cui stablecoin e NFT, comportano un elevato grado di rischio e possono fluttuare notevolmente. Dovresti valutare attentamente se effettuare il trading o detenere asset digitali è adatto a te alla luce della tua situazione finanziaria.