Guides· 6/8/2026· 4 мин чтения

Токены съедают бюджет: 12 приёмов, которые реально работают

Три года вайбкодинга — и вот конкретные приёмы: бесплатные модели, раздельные контексты, английский в правилах. Сокращаем счёт за ИИ без потери качества.

AI-assisted, edited by a human reviewer

ИИ-инструменты стали рабочей необходимостью, но счета за токены растут быстрее, чем планировалось. Особенно больно это бьёт по командам с агентными пайплайнами — там один прогон может стоить как несколько часов работы джуна. Ниже — двенадцать способов срезать расходы, проверенных на практике за три года активного использования.

Бесплатные и дешёвые модели: где их искать

Самый очевидный, но недооценённый способ — ловить модели в промо-периоде. Новые вендоры регулярно открывают бесплатный доступ, чтобы набрать пользователей. Смотреть на это стоит через openrouter.ai/rankings: если в топ-10 внезапно появляется малоизвестная модель с огромным трафиком — скорее всего, она сейчас бесплатная или почти бесплатная.

Китайские модели — отдельная история. Разница в цене с топовыми западными флагманами достигает x10 и выше, а на хорошо структурированных задачах с прописанными правилами и MCP-инструментами качество часто неотличимо. Ориентир для выбора — arena.ai/leaderboard/code/webdev. Все «китайцы» в топ-10 заслуживают внимания.

В KiloCode есть встроенный фильтр бесплатных моделей — не нужно ничего искать вручную.

Разные модели для разных задач

Использовать Claude Opus на каждый чих — расточительство. Рабочий пример распределения по задачам:

Спецификации и архитектура — мощная модель (например, Opus 4 в режиме high)
Кодирование — DeepSeek v3/v4
Ревью — GPT-4.5 или аналог
Тестирование и ресёрч — более дешёвая модель

При таком раскладе дорогая модель занимает 15–20% от общего расхода токенов, но делает самую ответственную работу — планирование. Итоговая экономия относительно «всё на Opus» — x5–7 по стоимости.

SDD и план перед кодом: долгосрочная экономия

Кажется, что написание спецификации — это лишние токены. На самом деле наоборот: агент без плана делает больше итераций, ломает старые фичи новыми, теряет контекст. В сумме это дороже.

Минимальный вариант — включить Plan mode перед задачей и зафиксировать результат в памяти проекта. Более полный подход — использовать SDD-фреймворк. Для старта подойдёт OpenSpec — лаконичный и не требует сложной настройки.

Контекстное окно: чистить регулярно

Длинный контекст стоит денег даже с учётом cache read (кэширования уже отправленных токенов). Кроме того, большой контекст снижает точность: модель начинает игнорировать часть инструкций или выполнять не те.

Правило простое: каждая логическая задача — отдельный контекст. Написали спеку — выполняйте в новом чате. Ревью — в новом. Тесты — в новом. Если настроены субагенты, у каждого свой контекст — это решает проблему автоматически. Правильно написанная спека позволяет сбрасывать контекст в любой момент без потери прогресса.

Английский в правилах и конфигах

Русский текст занимает больше токенов, чем английский — разница зависит от модели, но она есть и она ощутима при долгой работе. Если переводить весь проект на английский неудобно, достаточно зафиксировать на английском rules, skills и memory-файлы агента. Это те части, которые попадают в каждый запрос и накапливаются быстрее всего.

Подписки вместо pay-per-token

При интенсивном использовании подписка на инструмент (Cursor, Windsurf, Claude Pro и т.д.) обходится дешевле, чем прямая оплата по API. Порог окупаемости зависит от объёма, но если вы работаете с ИИ каждый день — считать стоит.

Prompt caching: настроить один раз

Многие провайдеры (Anthropic, OpenAI) поддерживают кэширование системного промпта. Повторные запросы с одинаковым началом стоят в разы дешевле. Для этого системный промпт должен быть стабильным и идти первым в запросе — тогда он попадает в кэш.

```python

Пример структуры запроса с cache_control для Anthropic API

messages = [ { "role": "user", "content": [ { "type": "text", "text": system_prompt, "cache_control": {"type": "ephemeral"} }, { "type": "text", "text": user_message } ] } ] ```

Экономия на cache read — до 90% стоимости кэшированной части.

Где это ломается

Бесплатные модели нестабильны. Промо заканчивается без предупреждения, качество может резко упасть на конкретных задачах. Не стройте на них критичный пайплайн без fallback.

Cache read не гарантирован. Если системный промпт меняется между запросами или инструмент не реализует кэширование корректно — платите полную цену. Проверяйте через логи провайдера.

Субагенты с отдельными контекстами требуют хорошо написанных спек — иначе каждый агент начинает «изобретать» контекст заново и тратит больше токенов на ориентацию в задаче.

Английский в правилах помогает только если вы сами понимаете, что там написано. Экономия токенов не стоит ошибок из-за непонятных инструкций.

Что попробовать дальше

Настроить мониторинг расхода токенов по задачам — без цифр сложно понять, где реально утечка
Попробовать OpenSpec для структурирования спек и посмотреть, сократится ли число итераций
Сравнить DeepSeek v4 с текущей моделью на реальных задачах: прогнать одинаковый набор задач и сравнить результат и стоимость
Включить prompt caching через API и проверить в дашборде провайдера, что токены действительно кэшируются

Источники

Habr AI: Экономный ИИ. 12 способов снизить расходы (токенов/на токены)