Моделі рівня S: GLM і Hermes 👀👀🔥🥰
3 місяці тому я зрозумів, що безнадійно залежу від корпорацій, які дбають лише про владу, гроші та контроль.
На той момент Cursor, Claude, OpenAI мали надійні безлімітні тарифні плани.
Я хотів Mac M3 Ultra з 512 ГБ оперативної пам'яті. Ахмад і Певдіепі переконали мене в протилежному.
Ось що я дізнався, створюючи власну установку зі штучним інтелектом
-----------------------------
Збірка ($3K-$10 тис.)
Це найвища продуктивність, яку ви можете отримати нижче 10 тисяч доларів США
• 4x RTX 3090s з 2x NVLink
• Процесор Epyc з 128 лініями PCIe
• 256-512 ГБ оперативної пам'яті DDR4
• Материнська плата Romed8-2T
• Спеціальна стійка + охолодження вентилятора
• БП AX1600i + якісні стояки
Вартість: $5 тис у США, $8 тис у ЄС (дякую ПДВ)
Перевірка реальності продуктивності
Більше 3090-х = більші моделі, але швидко починається спадна віддача.
Наступний крок: 8-12 графічних процесорів для AWQ 4-bit або BF16 Mix GLM 4.5-4.6
Але на даний момент ви досягли ліміту споживчого обладнання.
----------------------------------------
Моделі, які працюють:
Моделі S-Tier (золотий стандарт)
• GLM-4.5-Air: відповідає Sonnet 4.0, коди бездоганно отримали це до стабільних 50 tps і попереднього заповнення 4k/s з vLLM
• Hermes-70B: Говорить вам що завгодно без джейлбрейка
Робочі конячки A-рівня
• Лінія Qwen
• Лінія «Містраль»
• GPT-OSS
Варіанти B-рівня
• Лінія Gemma
• Лінія лами
------------------------------------
Програмний стек, який реально працює
Для кодування/агентів:
• Claude Code + Router (GLM-4.5-Air працює ідеально)
• Roocode Orchestrator: визначення режимів (кодування, безпека, рецензент, дослідник)
Оркеструвальник керує областю видимості, розкручує локальні LLM з фрагментованим контекстом, а потім синтезує результати. Ви можете використовувати GPT-5 або Opus/GLM-4.6 як оркестратор, а локальні моделі як все інше!
Варіанти будівельних риштувань (рейтинг)
1. vLLM: максимальна продуктивність + зручність використання, блискавична швидкість, якщо модель підходить
2. exllamav3: Набагато швидше, всі кількісні розміри, але погані будівельні риштування
3. llama.cpp: Легкий старт, хороші початкові швидкості, погіршення в залежності від контексту
Рекомендації щодо інтерфейсу користувача
• lmstudio: Прив'язаний до llama.cpp, але чудового UX
• 3 Sparks: додаток Apple для місцевих LLM
• JanAI: Добре, але з обмеженими можливостями
-------------------------------
Висновок
Mac Ultra M3 забезпечує 60–80% продуктивності з доступом MLX. Але якщо ви хочете абсолютно найкращого, вам потрібна Nvidia.
Ця подорож навчила мене: справжня незалежність приходить від розуміння та створення власних інструментів.
Якщо вас цікавлять бенчмарки, я багато писав у своєму профілі


8,7 тис.
75
Вміст на цій сторінці надається третіми сторонами. Якщо не вказано інше, OKX не є автором цитованих статей і не претендує на авторські права на матеріали. Вміст надається виключно з інформаційною метою і не відображає поглядів OKX. Він не є схваленням жодних дій і не має розглядатися як інвестиційна порада або заохочення купувати чи продавати цифрові активи. Короткий виклад вмісту чи інша інформація, створена генеративним ШІ, можуть бути неточними або суперечливими. Прочитайте статтю за посиланням, щоб дізнатися більше. OKX не несе відповідальності за вміст, розміщений на сторонніх сайтах. Утримування цифрових активів, зокрема стейблкоїнів і NFT, пов’язане з високим ризиком, а вартість таких активів може сильно коливатися. Перш ніж торгувати цифровими активами або утримувати їх, ретельно оцініть свій фінансовий стан.