System Center Operations Manager for HPC: Kompletní monitoring HPC infrastruktury

Autor: Michal Kvasnička, Sprinx Systems a.s.

Dnes si představíme základní funkční vlastnosti nové verze populárního monitorovacího nástroje pro HPC clustery postavené na platformě Windows - Microsoft System Center Operations Manager for Windows High-Performance Computing (HPC) Infrastructures.

Co je to System Center Operations Manager for HPC

System Center Operations Manager for HPC je softwarové řešení pro kompletní monitorování HPC infrastruktury. Jedná se vlastně o alternativní verzi produktu System Center Operations Manager 2007, třetí generaci oceněného monitorovacího řešení od společnosti Microsoft, doplněnou o několik funkčních prvků, které nejsou u běžných IT infrastruktur upotřebitelné, zato však nalézají uplatnění v případě větších HPC clusterů.

Silné výpočetní clustery jsou dnes i přes svůj relativně malý výskyt nepostradatelné. Důvodem je jejich nenahraditelnost při zpracování vysoce náročných výpočetních úloh, kde obyčejné servery či osobní počítače svým výkonem nepostačují. Úlohy takové náročnosti zpravidla souvisejí s vědeckými či výzkumnými pracemi, výjimkou však není ani obchod. Proto se s nimi nejčastěji setkáváme u akademických či vládních institucí a také v případě větších obchodních společností.

Rok od roku je většina clusterů v důsledku rostoucí zákaznické poptávky vystavena stále vyšším nárokům na výkon. V clusteru tak neustále přibývají nové uzly (servery) nebo jsou nahrazovány výkonnějšími. S tímto vývojem však přímo úměrně roste také komplexita clusteru jako takového. Potřeba podporovat velké množství organizačních uskupení a uživatelů, z nichž většina používá jiné aplikace, klade na tyto sdílené clustery extrémní nároky. K tomu všemu je komplexita clusteru ještě umocněna heterogenností technologické infrastruktury, ze které je tvořen. Ta totiž velmi často sestává z různých typů síťového propojení, úložných zařízení a mnohdy i operačních systémů.

Potřeba účinného systému řízení

Vzhledem k zmíněné komplexitě obklopující velké HPC clustery jsou systémové monitorování a administrační nástroje jedním z nejstrategičtějších prvků pro udržení vysoké míry využití a tím i efektivity clusteru. Microsoft System Center Operations Manager 2007 do značné míry řeší problém s řízením clusteru, resp. služeb na něm běžících. Toto řešení pro ucelené (end-to-end) řízení služeb na platformě Windows pomáhá dosáhnout kontrahované míry využití a efektivity HPC infrastruktury a zároveň poskytuje uživatelům silný nástroj pro její řízení.

Podpora administrační produktivity

Operations Manager 2007 je navržen tak, aby posílil administrační produktivitu, čehož dosahuje poskytnutím snadno použitelného monitorovacího prostředí schopného monitorovat tisíce serverů, klientských stanic či jednotlivých aplikací, a tím poskytovat uživatelům kompletní přehled o výkonu a zdraví celé HPC infrastruktury. V souladu s tímto předsevzetím Microsoft postavil novou verzi (2007) řešení Operations Manager na následujících třech pilířích:

  • Řízení služeb od jednoho konce k druhému (end-to-end)
  • Nejlepší monitorovací řešení pro platformu Windows
  • Lepší efektivita a řízení

V rámci těchto pilířů Microsoft spojil osvědčené technologie, jako například Windows Server či Microsoft SQL Server, se zcela novými technologiemi, jako jsou System Definition Model (SDM) či skriptovací nástroj Windows PowerShell. Funkční nabídku systému Operations Manager 2007 lze rozčlenit do několika kategorií.

Jak již bylo řečeno, Operations Manager 2007 přináší jak technologie nové, tak i převzaté ze starších verzí a posléze inovované. Mezi ty nejzajímavější se řadí monitorování distribuovaných aplikací, syntetické transakce, SDM systém, health modely či úplná novinka - monitorování bez agenta. Tyto nástroje pomáhají administrátorům monitorovat služby od jednoho konce k druhému (end-to-end).

Distribuované aplikace

V dnešním podnikovém IT prostředí bývají technologická řešení často směsicí mnoha samostatných komponent. Také už jednotlivé služby, například e-mail, neběží na jediném serveru jako kdysi, ale používají více strojů zároveň, stejně tak i více síťových prvků. Distribuované prostředí novodobých aplikací proto mění požadavky kladené na nástroje monitorující události a výkon. Operations Manager 2007 umožňuje administrátorům graficky definovat komponenty, které vytvářejí službu. Jakmile je tento servisní model definován, mohou být služby monitorovány shodným způsobem jako kterékoliv samostatné hardwarové zařízení. Podobně, jako mohou být monitorovány události či výkon, lze sledovat a reportovat celkový stav (zdraví) použité informační infrastruktury. Definovat a monitorovat lze nejen elementární služby, ale i komplexy služeb tvořené několika dílčími službami.

Monitorování z pohledu koncového uživatele

Pro lepší transparentnost nad operacemi, které probíhají v rámci clusteru, nabízí Operations Manager 2007 bohaté reportovací funkce pro každou úlohu zadanou uživatelem, stejně jako možnost nepřetržitého sledování parametrů využití clusteru. Definované uživatelské role určují funkcionalitu administrační konzole pro každého uživatele. Ti vidí pouze takové funkce, které mohou používat. Operations Manager 2007 je vybaven novou webovou konzolí, která umožňuje přístup z kteréhokoliv systému s nainstalovaným webovým prohlížečem.

Operations Manager dále podporuje tzv. syntetické transakce, které simulují koncového uživatele a reportují dosažené úspěchy/neúspěchy při používání dané služby, ale také statistiky výkonu z provedených operací. Výsledky syntetických transakcí mohou být použity pro reportování nebo jako upozornění na možné problémy s konkrétní službou.

Monitorování bez agenta

Nově je Operations Manager 2007 schopen zjistit a monitorovat pády/selhání aplikací. Monitorování bez použití klienta přesměruje informace o pádu konkrétní aplikace shromážděné nástrojem Dr. Watson či Windows Error Reporting do programu Operations Manager pro další analýzu. Získaná data pak mohou být použita k pouhému reportování či pro upozornění administrátorů na problémy týkající se daných aplikací za účelem jejich odstranění. To je důležité zejména tehdy, pokud na clusteru běží více aplikací zároveň, kdy jedna je závislá na druhé.

Management packy

Součástí Operations Manageru 2007 jsou opět také management packy, tedy balíčky administrativních prvků vztahující se ke konkrétnímu produktu. Operations Manager obsahuje více než 60 management packů převážně pro produkty Microsoft, počínaje operačními systémy Windows po aplikace jako Microsoft Exchange Server, Internet Information Server, SQL Server a další. Management packy jsou dostupné rovněž pro některé softwarové a hardwarové produkty třetí strany.

Management packy pro Operations Manager 2007 pomáhají při správě operačních systémů, aplikací a jiných technologických komponent. Každý management pack zahrnuje tzv. best practices, tj. osvědčené know-how nezbytné pro odhalení, monitorování, reportování a vyřešení problémů spojených s určitou technologickou komponentou. Management packy zahrnují health modely založené Systems Definition Model (SDM), které využijete při analyzování výkonu, dostupnosti, konfigurace a zabezpečení, stejně jako při zjišťování stavu souvisejících komponent, což umožňuje určit celkový stav zkoumaného systému.

Management packy jsou (v případě Microsoftu) vyvíjené stejným týmem, který vyvíjí produkty, k nimž se vztahují. Pro uživatele je to zárukou, že jejich know-how pochází od dobře zasvěceného zdroje. Veškeré management packy spadají pod licenci produktu Operations Manager 2007 a jejich úplný výčet včetně popisů funkčních vlastností je dostupný v katalogu management packů na oficiálních stránkách Operations Manageru (https://www.microsoft.com/technet/prodtechnol/scp/opsmgr07.aspx). K dispozici jsou taktéž management packy pro různé produkty třetí strany, jako například Linux, Oracle či SAP, stejně tak pro síťový či serverový hardware - ty jsou produkované a nabízené partnery společnosti Microsoft. Partnerské management packy pokrývají technologie, které jsou dnes organizacemi nejčastěji používány, a jejich souhrnný počet přesahuje 100.

Součástí systému je balík nástrojů Management Pack Tool Collection (či Management Pack Tools) umožňující vývoj nových či úpravu stávajících management packů. Správci IT ocení nástroj Distributed Application Designer, který jim prostřednictvím grafického průvodce pomůže rychle vytvořit health modely nebo management packy pro libovolné IT služby. Dalším zajímavým doplňkem je Management Pack Authoring Console, grafický nástroj, který pomáhá IT administrátorům a vývojářům vytvářet management packy pro své vlastní aplikace či technologické komponenty. Nechybí ani Operations Manager 2007 Software Development Kit (SDK) poskytující programovací rozhraní, které vývojářům umožňuje hladce integrovat svůj software s produktem Operations Manager 2007.

Vylepšená rozšiřitelnost

Operations Manager 2007 nestanovuje maximální velikost clusteru, který může být monitorován. Tento nástroj si hravě poradí třeba i s tisícovkou serverů (uzlů) najednou. Jediné potenciální omezení spočívá v počtu nainstalovaných management packů - pro každý produkt, který je monitorován a vyžaduje management pack, musí být nainstalován samostatný management pack.

Bezpečnější od návrhu

Operations Manager 2007 je lépe zabezpečen už od samého návrhu: komunikační kanál mezi serverem a agentem je šifrován. Systém ve výchozím nastavení automaticky odmítne spojení s manuálně instalovanými agenty na monitorovaných uzlech.

Shromažďování auditů

Systém může bezpečně a efektivně extrahovat a shromažďovat bezpečnostní logy z operačních systémů Windows a uložit je pro účely pozdějšího analyzování či reportování. Uchované reporty jako například ty, které jsou vyžadované v rámci auditů Sarbanes-Oxley, mohou být použitelné na podporu budoucího plnění prakticky kterýchkoliv regulačních podmínek.

Integrace s Active Directory

Díky integraci s Active Directory mohou uživatelé Operations Manageru 2007 snadno zprovoznit a konfigurovat funkce jako je uživatelská autentizace či agent discovery, a to více zabezpečenou formou a bez kompromisu na jednoduchosti použití.

Závěr

Používání Operations Manageru pro monitorování HPC clusterů založených na operačním systému Windows CCS zvyšuje produktivitu IT administrátorů. Obchodní přínosy tohoto řešení zahrnují:

  • Produktivnější HPC prostředí pro koncové uživatele zvyšující jejich spokojenost
  • Vyšší míra využití a efektivity clusteru vedoucí k lepším obchodním výsledkům
  • Pomoc při zajištění shody s bezpečnostními a regulačními směrnicemi, což vede k vyšší provozní výkonnosti
  • Neomezená rozšiřitelnost na větší a komplexnější HPC prostředí podporující návratnost investice vložené do IT