04092025 – google is down
Днес с огромен интерес установих, че днес Google и техните услуги не работят. Повече инфо можете да намерите тук – https://outage.report/google
Някъде някой е apply-нал грешния terraform, грешна конфигурация или pipeline към грешната среда и айде.
Обикновено тези outages са в основата си нещо малко (в смисъла на някой параметър или фикс от няколко реда), а не нещо огромно (като запален datacenter). Естествено impact-а е огромен.
И понеже и услуги несвързани с google или GCP пак гърмят се сетих за един случай преди много години в TransportAPI където работих като ДевОпс. Имахме сървис, който използвахме и който съвсем логично понякога падаше. Проблемът беше, че като падне с него падахме и ние заради изчаквания и таймаути, които ни чупиха логиката.
Най-доброто решенеи за такива ситуации е circuit breakers и кеширане на данните така, че ако някой сървис е долу ние няма да паднем, а с кешираните данни ще върнем и данни много близки до това, което трябва да покажем. Има и други подобни техники, които са safety nets и те трябва да бъдат взети предвид. За жалост това се случва рядко, защот винаги всички бързат прекалено много.