Выбор моделей и экономия
Как сэкономить?
Какие есть варианты не разориться на ИИ-инструментах, если вы кибер-бомж без подписки за 200 баксов:
- У Windsurf есть бесплатный уровень, его часто используют для автокомплита
- Можно достаточно бюджетно пользоваться Roo Code или Cline - на Reddit полно советов
- Aider очень экономно расходует токены по сравнению с другими инструментами
- Codex CLI и плагин для IDE входит в подписку ChatGPT (но может потребоваться настройка для работы через VPN)
Не всегда самая дешёвая модель - лучший выбор. Иногда дешёвая модель будет ходить по кругу 10 раз и в итоге потратит больше токенов, чем одно удачное решение на дорогой модели.
Правило: Для критичных задач лучше переплатить за качественную модель, чем потратить часы на отладку результатов дешёвой.
Не забывайте, что подписки на данный момент намного выгоднее, чем использование по API.
Цены на модели в BYOK-инструментах
В BYOK-инструментах огромное значение имеет выбор моделей, разброс гигантский. Вот примеры текущих цен за миллион входных и выходных токенов на OpenRouter:
| Модель | Входные токены | Выходные токены |
|---|---|---|
| Claude Opus 4.6 | ~$5 | ~$25 |
| Claude Sonnet 4.6 | ~$3 | ~$15 |
| GPT-5.4 | ~$2.50 | ~$15 |
| Grok 4 | ~$3 | ~$15 |
| Gemini 2.5 Pro | ~$1.25 | ~$10 |
| Gemini 2.5 Flash | ~$0.30 | ~$2.50 |
| Deepseek V3 | ~$0.30 | ~$0.90 |
| Qwen 3 Coder | ~$0.22 | ~$1 |
| Devstral Small | ~$0.10 | ~$0.30 |
Примечание: Цены постоянно меняются, всегда проверяйте актуальные на OpenRouter.
Дополнительные лайфхаки для экономии
Бесплатные модели на OpenRouter
Да, есть лимиты, могут отвечать медленно, но как один из вариантов. Примеры бесплатных моделей:
- DeepSeek V3 0324
- Qwen3 Coder 480B A35B
- GLM 4.5 Air
- Kimi K2 0711
Новые модели в cloak-режиме
Часто дают бесплатно попробовать как на OpenRouter, так и в Cursor. Например, недавно появился новый Grok 4 Fast (называется Code-Supernova).
Бесплатные кредиты от провайдеров
Google даёт бесплатные кредиты на каждый акк в GCP.
Заканчиваются лимиты, что делать?
- Запустить скрипт анализа токенов, скормить отчёт Claude Code и попросить найти плохие паттерны использования
- Проверить в пустой сессии
/context— не жрут ли много токенов какие-нибудь MCP и плагины - Если задача несложная, в начале сессии выставить
/effort mediumилиauto. Можно также переключиться на Sonnet - Используйте
/rewind— например, если дискуссия пошла не туда или нужно отредактировать промпт - Если используете много тяжёлых MCP-вызовов, попробуйте плагин context-mode
- Если сессия была неактивна более часа, грузить её с нуля очень дорого. Claude предложит варианты — загрузить полностью, сделать саммери, начать новую сессию. Подумайте, какой вариант лучше подходит
- Меньше вайбкодить с 16 до 22 по Москве — это пиковые часы Claude Code, в которые лимиты уходят быстрее
Локальные модели
Не рекомендуем: Локальные модели годятся только для простейших задач. Они значительно уступают облачным моделям в качестве решения кодинговых задач. Ну разве что вы можете развернуть какой-нибудь Kimi K2 у себя.
Следующая: MCP и CLI
Предыдущая: Метрики внедрения