Выбор моделей и экономия

Как сэкономить?

Какие есть варианты не разориться на ИИ-инструментах, если вы кибер-бомж без подписки за 200 баксов:

У Windsurf есть бесплатный уровень, его часто используют для автокомплита
Можно достаточно бюджетно пользоваться Roo Code или Cline - на Reddit полно советов
Aider очень экономно расходует токены по сравнению с другими инструментами
Codex CLI и плагин для IDE входит в подписку ChatGPT (но может потребоваться настройка для работы через VPN)

Не всегда самая дешёвая модель - лучший выбор. Иногда дешёвая модель будет ходить по кругу 10 раз и в итоге потратит больше токенов, чем одно удачное решение на дорогой модели.

Правило: Для критичных задач лучше переплатить за качественную модель, чем потратить часы на отладку результатов дешёвой.

Не забывайте, что подписки на данный момент намного выгоднее, чем использование по API.

Цены на модели в BYOK-инструментах

В BYOK-инструментах огромное значение имеет выбор моделей, разброс гигантский. Вот примеры текущих цен за миллион входных и выходных токенов на OpenRouter:

Модель	Входные токены	Выходные токены
Claude Opus 4.8	~$5	~$25
Claude Sonnet 4.6	~$3	~$15
GPT-5.4	~$2.50	~$15
Grok 4	~$3	~$15
Gemini 2.5 Pro	~$1.25	~$10
Gemini 2.5 Flash	~$0.30	~$2.50
Deepseek V3	~$0.30	~$0.90
Qwen 3 Coder	~$0.22	~$1
Devstral Small	~$0.10	~$0.30

Примечание: Цены постоянно меняются, всегда проверяйте актуальные на OpenRouter.

Дополнительные лайфхаки для экономии

Бесплатные модели на OpenRouter

Да, есть лимиты, могут отвечать медленно, но как один из вариантов. Примеры бесплатных моделей:

DeepSeek V3 0324
Qwen3 Coder 480B A35B
GLM 4.5 Air
Kimi K2 0711

Если не хочется выбирать вручную, есть авто-роутер openrouter/free — он сам случайно подбирает одну из бесплатных моделей под запрос, с учётом нужных возможностей (tool calling, картинки, structured output).

Новые модели в cloak-режиме

Часто дают бесплатно попробовать как на OpenRouter, так и в Cursor.

Бесплатные кредиты от провайдеров

Google даёт бесплатные кредиты на каждый акк в GCP.

Заканчиваются лимиты, что делать?

Запустить скрипт анализа токенов, скормить отчёт Claude Code и попросить найти плохие паттерны использования
Проверить в пустой сессии /context — не жрут ли много токенов какие-нибудь MCP и плагины
Если задача несложная, в начале сессии выставить /effort medium или auto. Можно также переключиться на Sonnet
Используйте /rewind — например, если дискуссия пошла не туда или нужно отредактировать промпт
Если используете много тяжёлых MCP-вызовов, попробуйте плагин context-mode
Если сессия была неактивна более часа, грузить её с нуля очень дорого. Claude предложит варианты — загрузить полностью, сделать саммери, начать новую сессию. Подумайте, какой вариант лучше подходит
Меньше вайбкодить с 16 до 22 по Москве — это пиковые часы Claude Code, в которые лимиты уходят быстрее

Fusion Router

Если ситуация обратная — задача критичная, то у OpenRouter есть Fusion Router — он прогоняет запрос через панель из нескольких моделей (по умолчанию Claude Opus + GPT + Gemini), затем модель-судья сравнивает их ответы (где сходятся, где расходятся, что упустили), и финальный ответ пишется уже с учётом этого разбора. Утверждают, что по качеству такая схема сравнима с Mythos.

Локальные модели

Не рекомендуем: Локальные модели годятся только для простейших задач. Они значительно уступают облачным моделям в качестве решения кодинговых задач. Ну разве что вы можете развернуть какой-нибудь Kimi K2 у себя.

Следующая: Экономика контекста и prompt caching

Предыдущая: Как включить сбор метрик