Облака Aws, azure и Gcp: за что вы платите и как оптимизировать расходы

В облаках вы платите не за "сервер", а за набор измеряемых ресурсов: вычисления (CPU/память/время), хранение и операции с данными, сетевой трафик, управляемые сервисы и их запросы, а также лицензии и поддержку. Оптимизация расходов на облако сводится к инвентаризации потребления, установлению владельцев, выбору правильных моделей покупки и регулярному устранению простаивающих ресурсов.

Опорные моменты

Начинайте с прозрачности: теги/лейблы, учетные границы (accounts/subscriptions/projects) и отчеты по владельцам.
Самые частые "утечки" - простаивающие VM, неиспользуемые диски/снапшоты, NAT/egress и избыточные managed-сервисы.
Сначала правьте быстрые вещи (rightsizing, отключение по расписанию), затем - модели покупки (Savings Plans/RI/Committed Use).
Оптимизируйте трафик и размещение данных: зона/регион, кэширование, приватные endpoints, меньше межзоновых/межрегиональных вызовов.
Без процессов "управление облачными затратами FinOps" превращается в разовую уборку: нужны бюджеты, алерты, политики и еженедельный ритм.

Для каких случаев метод подходит

Подходит, если у вас уже есть рабочие нагрузки в AWS/Azure/GCP и расходы растут быстрее использования, появились "непонятные" счета, либо нужно системно организовать оптимизацию затрат Azure, снижение затрат на AWS и оптимизацию расходов GCP на одном уровне зрелости.

Особенно уместно: несколько команд/проектов, микросервисы, активное тестирование, много временных сред, интенсивный трафик и данные.
Лучше отложить или ограничить: критичные системы без наблюдаемости и SLO (сначала внедрите метрики), легаси без автомасштабирования (сначала базовая автоматизация), строгие регуляторные ограничения, где любые изменения требуют долгого цикла согласований.

Что подготовить заранее

Доступы: чтение биллинга и usage (AWS Cost Explorer, Azure Cost Management, GCP Billing), доступ к инвентарю ресурсов (консоль/CLI), право создавать бюджеты/алерты.
Разметка затрат: обязательные теги/labels (Owner, Team, Project, Environment, CostCenter), политика их применения.
Границы учета: в AWS - accounts/OU, в Azure - management groups/subscriptions/resource groups, в GCP - billing account/projects/folders.
Наблюдаемость: базовые метрики CPU/RAM/disk/network, latency, RPS; журналы включайте выборочно (логирование тоже стоит денег).
Правила безопасности изменений: окно изменений, план отката, минимум один неавтоматический "стоп-кран" (например, ограничение автоудалений только для non-prod).

Что обычно дает эффект быстрее всего

Зона расходов	Что вы фактически оплачиваете	Типовые "утечки"	Безопасная оптимизация
Compute (VM/контейнеры/серверлесс)	Время работы, размер/класс, дополнительные возможности	Оверпровижининг, 24/7 non-prod, "забытые" ноды	Rightsizing, расписания stop/start, autoscaling, Spot/Preemptible для stateless
Storage (объектное/блочное/файловое)	Объем, класс хранения, операции, запросы	Снапшоты без политики, горячий класс для архивов	Lifecycle policies, очистка снапшотов, правильные классы, компрессия
Network	Egress, межзоновой/межрегиональный трафик, NAT/балансировщики	Межрегиональные чаты сервисов, NAT как "труба для всего"	Колокация компонентов, кэш/CDN, приватные endpoints, оптимизация маршрутов
Managed-сервисы (DB, очереди, аналитика)	Инстансы/емкость, операции/запросы, хранение/бэкапы	Завышенные SKU, ретеншн бэкапов, дорогие запросы	Профилирование запросов, tiering, авто-пауза, настройка ретеншна
Логи/мониторинг	Инжест/хранение/поиск, ретеншн	Логи "все подряд" в prod, слишком долгий ретеншн	Сэмплинг, фильтры, раздельные ретеншны, алерты на всплески

Как выполнить задачу поэтапно

Риски и ограничения, которые нужно учитывать

Агрессивное rightsizing может ухудшить latency и привести к троттлингу/GC/свопу; начинайте с небольших шагов и наблюдайте метрики.
Отключение ресурсов по расписанию опасно для задач, которые "просыпаются" ночью (ETL, бэкапы, батчи) - согласуйте окна с владельцами.
Перенос данных между регионами/классами хранения может создать разовый всплеск расходов на операции и трафик.
Spot/Preemptible не подходят для stateful без устойчивости к прерыванию; требуются очереди, повторяемость задач и idempotency.
Сокращение логирования без плана может ухудшить расследования инцидентов; фиксируйте минимально достаточный набор событий.

Соберите базовую картину затрат за счетами и проектами.
Посмотрите разбивку по сервисам и по меткам владельцев; выделите топ-направления расходов и "неразмеченную" часть.
- Зафиксируйте 3-5 самых дорогих сервисов/категорий для каждого облака.
- Отдельно пометьте расходы "shared" (сеть, наблюдаемость, безопасность), чтобы не вешать их на одну команду случайно.
Наведите порядок в атрибуции: теги/лейблы и ответственность.
Без владельца нельзя безопасно удалять или уменьшать ресурсы, поэтому сначала добейтесь приемлемого покрытия метками.
- Введите обязательные поля: Owner/Team/Project/Environment/CostCenter.
- Определите правило: "неразмеченные ресурсы - кандидат на остановку в non-prod" (после уведомления).
Найдите и устраните "мусор" (quick wins).
Это самый безопасный слой: ресурсы, которые не обслуживают нагрузку, но продолжают оплачиваться.
- Остановленные/пустые VM, неиспользуемые диски, старые снапшоты/образы без политик.
- Неиспользуемые балансировщики, публичные IP без привязки, простаивающие NAT/шлюзы.
- В non-prod проверьте "забытые" среды и автогенерируемые ресурсы CI/CD.
Выполните rightsizing вычислений на основе метрик.
Делайте изменения итеративно: уменьшайте размер/лимиты, наблюдайте, откатывайте при деградации.
- Для VM: уменьшение типа/семейства, выключение лишних инстансов, корректировка autoscaling.
- Для Kubernetes: проверьте requests/limits, включите VPA/HPA там, где уместно.
- Для serverless: проверьте настройку памяти/конкурентности и "болтливость" вызовов.
Оптимизируйте хранение и жизненный цикл данных.
Цель - хранить редко используемое дешево и не платить за лишние операции.
- Настройте lifecycle для объектов (переход в холодные классы, удаление временных данных).
- Ограничьте ретеншн снапшотов/бэкапов политиками, а не ручными действиями.
- Проверьте рост логов и метрик: разный ретеншн для prod и non-prod.
Сократите сетевые расходы и лишний egress.
Часто это скрытая причина "почему счет не падает", даже после оптимизации compute.
- Сведите часто общающиеся компоненты в одну зону/регион, если это не нарушает требования к отказоустойчивости.
- Используйте кэширование и CDN для статического и "горячего" контента.
- Проверьте NAT и прокси: кто и почему ходит в интернет; где можно заменить на приватные endpoints.
Подберите модель покупки под стабильную часть нагрузки.
Это слой, который обычно дает сильный эффект при зрелом потреблении: снижение затрат на AWS через Savings Plans/Reserved Instances, аналогично - коммитменты в Azure и GCP.
- Отделите базовую (стабильную) нагрузку от пиков и экспериментов.
- Коммитите только то, что уверенно будете потреблять; для остального - on-demand и авто-масштабирование.
Закрепите процесс: бюджеты, алерты, политики и еженедельный ритм.
Это превращает оптимизацию расходов на облако в постоянный контур, а не в разовую акцию.
- Бюджеты и алерты на отклонения по проектам/командам, отдельно - на shared.
- Политики на создание дорогих SKU, обязательные теги, ограничения регионов.
- Еженедельный обзор аномалий и ежемесячная корректировка коммитментов.

Проверка результата по чек-листу

Не менее 90% расходов атрибутируются по Owner/Team/Project/Environment (если меньше - план догонки согласован).
Есть список топ-расходов по сервисам и по проектам, и у каждого пункта указан владелец и действие (keep/resize/retire).
В non-prod настроены расписания остановки, исключения задокументированы (батчи, тестовые окна, бэкапы).
Жизненный цикл для объектного хранилища включен; ретеншн снапшотов/бэкапов управляется политиками.
Выявлены и уменьшены ключевые источники egress/NAT; межрегиональные потоки описаны и обоснованы.
Для стабильной нагрузки выбрана модель покупки (RI/Savings Plans/Committed Use) и утвержден риск-профиль коммитмента.
Включены бюджеты и алерты на аномалии; есть канал уведомлений и ответственные на каждую область.
Есть регулярный календарь review: затраты, аномалии, техдолг оптимизации, эффект изменений.

Ошибки, которые тормозят результат

Оптимизировать "вслепую" без метрик и владельцев: экономия превращается в инциденты и откаты.
Считать, что rightsizing VM решит все, игнорируя сеть, операции в storage и стоимость managed-сервисов.
Смешивать prod и non-prod в одной учетной области без четких тегов и бюджетов - расходы неуправляемы.
Включить максимальное логирование и долгий ретеншн "на всякий случай", а потом удивляться счету.
Брать коммитменты (RI/Committed Use) на нестабильную нагрузку и терять гибкость.
Удалять ресурсы без контроля зависимостей (IP, диски, security group/NSG, IAM) и ломать окружения.
Не учитывать межзоновой/межрегиональный трафик при архитектурных изменениях и миграциях.
Сводить управление облачными затратами FinOps к отчету раз в месяц без действий и владельцев.

Рабочие альтернативы

Платформенный подход (Guardrails + Self-Service): если много команд, выгоднее внедрить политики, шаблоны инфраструктуры и каталоги сервисов, чем "ручную экономию" по каждому проекту.
Архитектурная оптимизация вместо коммитментов: если нагрузка непредсказуемая, лучше инвестировать в кэширование, асинхронность и уменьшение egress, чем в долгие обязательства.
Перенос части задач в managed/serverless: уместно, когда стоимость операционной поддержки и простои дороже, чем плата за управляемый сервис.
Chargeback/Showback модель: если основная проблема - дисциплина потребления, вводите распределение затрат по командам и внутренние SLA на бюджеты.

Вопросы, которые возникают на практике

С чего начинать, если счет "размазан" и непонятно, кто потребляет?

Начните с покрытия тегами/лейблами и разделения учетных областей по средам. Пока не появится владелец затрат, любые оптимизации будут либо рискованными, либо бессмысленными.

Что безопаснее: rightsizing или покупка коммитментов?

Сначала - quick wins и rightsizing, потому что они уменьшают базу потребления. Коммитменты (RI/Savings Plans/Committed Use) делайте после стабилизации и понимания "постоянной" нагрузки.

Почему после "оптимизации VM" расходы почти не упали?

Часто доминируют сеть (egress/NAT), managed-сервисы, операции и хранение, а не compute. Проверьте топ-строки биллинга и сетевые направления между зонами/регионами.

Как не сломать прод при сокращении логов и метрик?

Облака (AWS/Azure/GCP): за что вы платите и как оптимизировать расходы - иллюстрация

Определите минимально достаточные события для расследований и SLO, затем применяйте фильтры и разный ретеншн. Изменения делайте по окружениям, начиная с non-prod.

Есть ли универсальный рецепт для снижения затрат на AWS, Azure и GCP одновременно?

Да: атрибуция (теги/владельцы), устранение мусора, rightsizing по метрикам, оптимизация хранения и трафика, затем выбор модели покупки. Реализация отличается инструментами, но логика одинакова.

Как встроить оптимизацию затрат Azure в ежедневную работу команд?

Через бюджеты, алерты, политики на дорогие SKU и регулярные обзоры аномалий. Важно закрепить ответственность за каждую строку расходов и сделать стоимость видимой в планировании.

Что считать результатом для оптимизации расходов GCP в первые недели?

Не только снижение счета, но и управляемость: доля размеченных затрат, наличие владельцев, список топ-утечек и закрытые quick wins. Это база для устойчивой экономии без деградации сервиса.