Почему серверы выходят из строя и сколько это стоит бизнесу

В январе 2025 года у нашего клиента — дистрибьютора автозапчастей из Саратова — остановился сервер с базой 1С. 47 менеджеров не могли выставить ни одного счёта. Склад не отгружал товар. Простой длился 14 часов. Потери: 2,8 млн рублей выручки и один крупный контракт, который ушёл к конкуренту.

Сервер был четырёхлетний. Ни разу не обслуживался. Диски работали без RAID. Резервного копирования не было. Когда один из двух дисков посыпался, данные пришлось восстанавливать в лаборатории. Ремонт обошёлся в 180 000 рублей. Новый сервер — ещё в 420 000. Итого: больше 3,4 млн рублей за один инцидент.

Эта история типичная. По нашей статистике за 2024 год, 60% обращений к нам по серверам — аварийные. Компания приходит не за апгрейдом, а потому что всё сломалось. Давайте разберём, почему это происходит и как этого избежать.

Четыре причины, по которым серверы умирают раньше срока

1. Диски без RAID

Жёсткий диск — механическое устройство. Внутри вращается пластина на скорости 7 200 или 10 000 оборотов в минуту. Головка чтения парит над поверхностью на расстоянии 10 нанометров — это в 4 000 раз тоньше человеческого волоса. Любая вибрация, скачок питания или просто износ подшипника — и диск выходит из строя.

Производители указывают среднюю наработку на отказ (MTBF) в 1-2 млн часов. Звучит надёжно. Но это статистика для лабораторных условий. В реальной серверной, где температура прыгает, пыль забивает фильтры, а ИБП не всегда спасает от скачков — диски живут 3-5 лет. Иногда меньше.

RAID-массив решает эту проблему. При RAID-1 данные зеркалируются на два диска. Один умер — второй продолжает работать. При RAID-10 — четыре диска, где могут выйти из строя два (из разных пар), и система продолжит работу без потерь. Стоимость дополнительных дисков для RAID: 15 000-40 000 рублей. Стоимость восстановления данных без RAID: от 80 000 рублей. И это если данные вообще удастся достать.

2. Один блок питания

Серверный блок питания — второй по частоте отказов компонент после дисков. Он работает под нагрузкой 24/7, нагревается, конденсаторы деградируют. Через 3-4 года вероятность выхода из строя растёт экспоненциально.

Серверы бизнес-класса комплектуют двумя блоками питания с горячей заменой. Если один выходит из строя, второй берёт нагрузку на себя. Сервер продолжает работать. Инженер приезжает и меняет блок без остановки системы. Доплата за второй блок питания: 8 000-20 000 рублей. Час простоя отдела продаж из 30 человек обходится минимум в 150 000 рублей упущенной выручки.

3. Перегрев

Рабочая температура процессора в сервере — 60-80°C. При 95°C срабатывает троттлинг: процессор принудительно снижает частоту. При 105°C — аварийное выключение. Каждый градус выше нормы сокращает срок жизни электроники.

Мы регулярно видим серверы, которые стоят под столом в офисе. Или в кладовке без вентиляции. Или в серверном шкафу, забитом оборудованием до отказа без единого свободного юнита. Пыль на вентиляторах, забитые воздухозаборники, температура в помещении +30°C летом. В таких условиях сервер за 800 000 рублей живёт как одноразовый ноутбук.

Минимум, который нужен: кондиционер с поддержанием 18-24°C, чистка серверов от пыли раз в полгода, мониторинг температуры с алертами. Затраты: 50 000-100 000 рублей в год. Экономия: срок жизни оборудования увеличивается вдвое.

4. Отсутствие мониторинга

Диск не умирает мгновенно. За несколько недель до отказа появляются S.M.A.R.T.-предупреждения: растёт количество переназначенных секторов, увеличивается время отклика. Блок питания тоже деградирует постепенно: падает выходное напряжение, растёт пульсация.

Если мониторинг настроен, инженер узнаёт о проблеме за 2-3 недели до отказа. Заказывает запчасть, планирует замену на нерабочее время. Никакого простоя, никаких потерь. Без мониторинга — узнаёт утром в понедельник, когда 50 человек не могут войти в систему.

Сколько стоит час простоя

Формула простая: количество сотрудников, которые не могут работать × средняя выручка на сотрудника в час + штрафы по SLA + репутационные потери.

Для компании с 50 сотрудниками и годовой выручкой 200 млн рублей: один рабочий час = 100 000 рублей. 8 часов простоя = 800 000 рублей. Плюс время на восстановление: ещё 2-4 часа, пока система стабилизируется, а данные проверяются. Плюс сверхурочные инженерам. Плюс нервы.

Для интернет-магазина или логистической компании, где каждый час — это реальные заказы, потери ещё выше. Один из наших клиентов — онлайн-ритейлер — терял 400 000 рублей в час при недоступности сайта. После инцидента с двухчасовым простоем мы за неделю перевели их на отказоустойчивый кластер из двух серверов. Инвестиция окупилась за первый же предотвращённый инцидент.

Что делать прямо сейчас

Если вы технический директор или сисадмин — проверьте три вещи сегодня.

Первое: бэкапы. Не «у нас вроде настроено», а конкретно: когда последний раз проверяли, что бэкап восстанавливается? Мы видели компании, которые три года делали резервные копии в папку на том же сервере. Диск умер — пропало и рабочее, и резервное. Бэкап, который не проверен восстановлением, — не бэкап, а иллюзия безопасности.

Второе: возраст оборудования. Если серверу больше 5 лет — планируйте замену. Не потому что он сломается завтра, а потому что вероятность отказа растёт нелинейно. После 5 лет каждый год удваивает риск. Запчасти снимают с производства. Гарантия давно закончилась.

Третье: мониторинг. Zabbix, Grafana, PRTG — неважно что, важно чтобы было. Температура процессоров, состояние дисков, загрузка памяти, статус RAID-массива. Настройка занимает один рабочий день. Этот день может сэкономить вам миллионы.

Мы занимаемся серверной инфраструктурой: подбираем оборудование, настраиваем мониторинг, обеспечиваем поддержку с SLA от 4 часов. Если хотите проверить, насколько ваша инфраструктура устойчива к отказам — напишите нам. Проведём аудит и покажем слабые места.