Claude Code начинает тупить и упираться в лимит не случайно. За этим стоят два разных механизма, и оба управляемы. Если понять, что забивает контекст и как работают плановые лимиты, упираться вы будете в разы реже.
Два разных лимита
Их легко спутать, но это разные вещи:
- Контекстное окно – рабочая память одной сессии. На каждом ходу Claude заново получает всю историю: разговор, прочитанные файлы, вывод команд. Когда окно забивается – качество падает, ответы плывут.
- Плановый лимит – квота вашего тарифа. Работает как скользящее окно в 5 часов плюс отдельный недельный лимит со сбросом по расписанию (видно в Settings → Usage). Если квота кончается слишком быстро, а на платный тариф пока не готовы – есть рабочие способы запустить Claude Code бесплатно.
Связь между ними прямая: раздутый контекст сжигает плановую квоту быстрее, потому что каждый ход обрабатывает больше токенов. Экономия контекста экономит и квоту.
Что забивает контекст
Главный драйвер роста – чтение файлов. Каждый прочитанный файл остаётся в контексте до /clear или /compact. Один большой файл, открытый в начале, оплачивается токенами на каждом следующем ходу.
Что ещё растёт быстро:
- Вывод команд и инструментов. Даже если в терминале видна одна строка, модель может получить весь вывод целиком.
- Вставленный текст. Всё, что вы вставили прямо в промпт, висит в контексте до конца сессии.
- Ответы MCP-серверов. Один «взорвавшийся» MCP-вызов способен съесть заметную часть окна.
А ещё при старте сессии, до первого слова, уже загружены системные инструкции, ваш CLAUDE.md, автопамять и описания скиллов. Поэтому раздутый CLAUDE.md – это лишние токены в каждой сессии.
Размер окна сейчас – порядка 200K токенов, у части моделей до 1М, и числа меняются с каждым обновлением. Не ориентируйтесь на цифры из спецификаций – единственный честный источник для текущей сессии это команда /context.
Три команды диагностики
Прежде чем бороться с лимитом – посмотрите, на что он уходит.
/context– показывает, чем занят контекст: цветная карта с разбивкой по компонентам. Запускайте до того, как окно набилось, а не после.
/compact– сжимает историю в саммари и освобождает место, сохраняя важное. Можно задать фокус:/compact focus on API changes. Для продолжения той же задачи.
/usage– расход токенов и плановые лимиты, с разбивкой по скиллам, субагентам, плагинам и MCP-серверам. Сразу видно пожирателей.
И отдельно /clear – полная очистка контекста. При переключении на новую задачу это эффективнее компакции: сбрасывает накопленное начисто.
Если один файл или вывод настолько большой, что контекст заполняется сразу после компакции, Claude Code перестаёт автосжимать и падает с ошибкой. Не лейте огромные сырые выводы в основной поток – выносите их в субагент или в файл.
Карта проекта вместо перечитывания
Ключевая идея экономии – дать Claude компактную карту проекта, а не заставлять перечитывать весь код. Это и есть разница между «упёрся в лимит» и «работает ровно».
Anthropic называет это context engineering. Рабочая структура:
- Корневой
CLAUDE.md(держать до ~200 строк): назначение проекта, карта директорий, команды сборки и тестов, конвенции, «сюда не лезть».
ARCHITECTURE.mdилиREPO_MAP.md: компоненты, потоки данных, точки входа, «горячие» файлы.
DECISIONS.md: ключевые архитектурные решения, по абзацу на каждое.
- Вложенные
CLAUDE.mdпо папкам: локальные правила, грузятся только при работе в этой директории.
Принцип – минимум высокосигнальных токенов вместо чтения всего подряд. Тяжёлые процедуры (деплой, миграции) выносите в скиллы: они загружаются только по вызову, а не висят в контексте всегда.
Ссылка через @файл может втянуть в контекст весь файл вместе с его деревом CLAUDE.md. Если нужен только путь – укажите его текстом, это экономнее.
Субагенты как изоляция
Самый мощный рычаг экономии – субагенты. Субагент работает в отдельном контекстном окне и возвращает в основную сессию только итог. Он может прочитать тысячи токенов, а назад отдать пару сотен – резюме.
Куда это просится:
- Поиск по большому репозиторию – субагент читает, отдаёт выжимку.
- Прогон тестов – видит весь вывод, возвращает только упавшие.
- Изучение документации и веб-ресёрч.
Так основной контекст остаётся чистым, а тяжёлая работа уходит в изолированные окна.
MCP-блоат
MCP-серверы – частый скрытый пожиратель. Два вектора: схемы инструментов (по умолчанию грузятся лениво, но при неверной настройке платятся каждый ход) и размер вывода (предупреждение после 10 000 токенов, лимит по умолчанию 25 000, настраивается через MAX_MCP_OUTPUT_TOKENS).
Найти виновника: /usage покажет разбивку по серверам, /mcp – список, где можно отключить лишние.
Чек-лист, чтобы не упираться
- Смотри
/contextзаранее, а не когда уже встало. /clearпри смене задачи,/compact– чтобы продолжить ту же.- Держи
CLAUDE.mdкомпактным – это карта, а не свалка. - Тяжёлое чтение и тесты – в субагенты.
- Не вставляй большие тексты – давай путь к файлу.
- Раз в неделю проверяй
/usageи отключай ненужные MCP.
Итог
Лимит Claude Code – не стена, а следствие того, как вы кормите контекст. Дайте модели карту вместо горы файлов, выносите тяжёлое в субагенты, чистите контекст вовремя – и упираться будете в разы реже, а квота протянет дольше. Если хочется выжать максимум из тарифа, дальше идёт оптимизация токенов через Ruflo – она снимает до 75% расхода.
Хочешь научиться строить такие карты проекта и работать с агентами без потолка по контексту? В сообществе EdgeLab разбираем это на практике: эфиры, шаблоны, поддержка.
Узнай больше в сообществе EdgeLab Space – edgelab.space
FAQ
Почему Claude Code тупит и упирается в лимит?
Две причины: переполненное контекстное окно и плановая квота. Главный драйвер переполнения — чтение файлов: агент затягивает в контекст слишком много.
Как не упираться в лимиты Claude Code?
Держать карту проекта вместо перечитывания всего подряд и пользоваться диагностикой: /context (что в окне), /compact (сжать), /usage (квота). В гайде — как чистить контекст по ходу.




