Není support jako support (druhá část)

Přečtěte si pokračování našeho článku "Není support jako support, aneb tady nejde o zaseknutý počítač (první část)", ve kterém se věnujeme podpoře IT jako jsou zálohy, příprava disaster recovery plánů a údržba i monitoring.

Pokračování první části „Není support jako support, aneb tady nejde o zaseknutý počítač“

Bez záloh ani ránu

Zálohy jsou klíčovou aktivitou, které mnoho firmám zachránila spoustu času i peněz. Nikdy totiž nevíte, co se může stát, a kdy bude nutné systém či aplikaci obnovit. Zásadní je pravidelnost, celistvost, bezpečnost a odpovědnost. To, že je zálohy nutné provádět pravidelně či před aktivním zásahem do nastavení, netřeba asi více rozvádět. Podobně je na tom celistvost, je super mít uložené části kódu, ale pokud bude z nějakého důvodu chybět zbylá část, je celý proces k ničemu. Důležité je i jištění bezpečnosti zálohovaných dat tak, aby byly chráněny před smazáním i zneužitím neautorizovaných osob. V neposlední řadě si ve firmě (či v rámci outsourcingu) nastavit jasná pravidla a odpovědnosti. Je dobré si taky zapamatovat pomůcku 3-2-1. Tři kopie dat, na dvou různých uložištích např. disk a cloud a (minimálně) jedna kopie off-site. Samozřejmě mnoho z toho za vás řeší samotná cloudová služba, ale je vhodné mít svoje data u sebe v případě, že se s cloudem něco stane… šance je to mizivá, ale znáte to, náhoda je…. Nezapomeňte mimo klasických inkrementálních záloh diskových uložišť, virtuálních strojů či alespoň zásadních složek a souborů na často opomíjené hráče jako třeba konfigurace síťových prvků, tiskáren nebo samotného prostředí, za využití výše zmíněných nástrojů.

Štěstí přeje připraveným, anebo kvalitní plán je základ

Podceňovaným, ale velmi důležitým bodem v rámci provozu vlastní aplikace je bezpochyby příprava disaster recovery plánů. Tyto plány popisují postupy a kroky, které musí organizace podniknout, aby minimalizovala dopad nežádoucích událostí, a co nejrychleji obnovila standardní provoz. Příprava takového plánu obvykle začíná analýzou rizik, pokračuje detailním soupisem záložních postupů, nástrojů i technologií použitých pro záchranu a obnovu dat i celých aplikací. Velmi důležité je také dbát na pravidelné aktualizace. Vzhledem k rostoucímu významu cloudu a hybridních infrastruktur je také důležité zahrnout postupy pro obnovu v těchto prostředích. To může zahrnovat využití cloudových zálohových řešení, automatizovaných skriptů pro obnovu a dalších nástrojů, které mohou zrychlit a zjednodušit proces obnovy.

Aktuálnost a údržba využívaného softwaru i hardwaru
Jedním z klíčových aspektů údržby systémů je zajištění pravidelné aktualizace operačních systémů serverů, přístupových stanic i samotných zařízení. Dále by také mělo dojít k ověřování a zajištění aktuálnosti i dalších komponent, frameworků, databází, které ke svému provozu aplikace využívá. Tento bod by určitě neměl být ignorován, jeho splnění nám zajišťuje především bezpečnost, v některých případech ale také optimalizaci a zlepšení výkonu. Údržbu a péči nepotřebuje pouze software, nemělo by se zapomínat i na upgrade hardware, v případě využití cloudových uložišť vám tato starost odpadá.

Nezapomínejte na správně nastavený monitoring
Monitoring IT infrastruktury je pro většinu větších projektů zcela zásadní. Při zajištění těchto aktivit na on-premise řešení je naší primární volbou Nagios, který využívá NCPA agenta instalovaného na monitorovaném stroji. Tento agent je schopen autonomně sbírat širokou škálu metrik, od vytížení CPU, GPU a RAM, až po kapacitu disku. V případě, že základní metriky nejsou dostačující, je možné spustit vzdálené skripty pro získání podrobnějších informací, třeba stav RAIDového řadiče. Pro systémy hostované v Azure se využívá Azure Monitor, v závislosti na specifických požadavcích zákazníků a charakteru řešení je možné jej skrze API párovat s Nagiosem nebo jiným monitorovacím řešením. Jedna z klíčových výhod tohoto hybridního přístupu je schopnost monitorovat metriky specifické pro cloudová řešení s těmi on-premise a mít vše na jednom místě.

Ke kontrole samotného serverového HW se často využívá protokol IPMI běžně dostupný skrze remote management karty serverů (Dell iDRAC, HP iLO apod.), umožňující například detekci problémů s chlazením, záložním zdrojem nebo chybami v paměti.
Pro některá zařízení, která nemají možnost instalace agentů, se dá použít protokol SNMP, jehož hlavním cílem je dle implementace výrobce informovat o změně stavu zařízení. Stejně tak jako u serverů lze vyčíst např. poškozený větráček, včetně indikace dalších problémů, nebo třeba dostupnost updatů. Příkladem zařízení s SNMP mohou být NAS nebo síťové prvky.

Další zajímavé a systémové metriky mohou zahrnovat stav systémových služeb, dostupnost aktualizace operačních systémů a softwaru, nebo třeba konkrétní metriky spojené s databázovými systémy, například stav replikace v master-slave nebo multi-master architekturách. Důležitý je také monitoring záloh, jejich velikosti či expirace SSL certifikátů. Tento komplexní přístup k monitoringu umožňuje nejen identifikovat potenciální problémy dříve, než vyústí ve větší incidenty, ale také optimalizovat provoz a náklady spojené s IT infrastrukturou.

Závěrem

K provozu vlastních mobilních aplikací, nebo webových či desktopových programů neodmyslitelně patří také určité množství následné péče. Od vylepšování DevOps procesů, automatizaci buildů, přes správu a zabezpečení sítí, až po aktualizace a komplexní monitoring infrastruktury. Všechny tyto nástroje umíme nejen teoreticky popsat, ale také je aktivně využíváme v praxi u našich zákazníků, mezi které patří například JUST, Leaseplan a EmilFrey. A proč si právě vybrali MEMOS? Umožňujeme jim tím dosáhnout vyšší efektivity, lepšího zabezpečení a v konečném důsledku snížení nákladů na provoz. Zajímavost na závěr? Monitoring běží nonstop na naší televizi v ředitelské kanceláři, vždy když zasvítí rudě červená, jdeme do akce!

Není support jako support, aneb tady nejde o zaseknutý počítač (druhá část)