Microsoft zpřístupňuje HPC clustery přes internet… zatím jen vybraným univerzitám


Michal Kvasnička, Sprinx Systems a.s.

Microsoft není znám jen jako tvůrce operačních systémů, programů, her či hardwaru, ale rovněž širokou řádkou nejrůznějších iniciativ orientovaných do oblasti vzdělávání, počínaje bohatou nabídkou vzdělávacího softwaru a konče vysoce medializovaným programem Partneři ve vzdělávání (Partners in Learning). Jedním z těch posledních je HPC++ CompFin Lab, což je služba založená na HPC projektu s názvem HPC++ Labs, který je výsledkem dlouhodobé spolupráce Microsoftu s technologicko-konzultační společností Lab49. Projekt si klade za cíl poskytovat prostřednictvím internetu výkonné výpočetní kapacity pro potřeby univerzitního výzkumu či vzdělávání v oblasti finančnictví - odtud CompFin (=computational finance). V současné době jsou do projektu zapojeny tyto subjekty: University of North Carolina Charlotte, University of Virginia, University of Washington a Renaissance Computing Institute (RENCI).


Nápad vedoucí k založení HPC++ Labs vychází z několik úvah. V prvé řadě figuruje pozorovatelný trend rostoucí kapacity firemních datových úložišť, které se pomalu dostávají do řádu petabytů. Nejčastěji se mezi tato data řadí informace o vývoji hodnoty cenných papírů na kapitálových trzích, výsledky pozorování chování zákazníka, záznamy z měření přírodních veličin jako je atmosférický tlak, hladiny řek, hloubky oceánů, rychlost větru, množství dešťových srážek apod., dále pak data spojená s monitorováním pohybu zboží na základě radiofrekvenční identifikace (RFID) nebo například schémata pohybu dopravních prostředků a chodců v prostředí velkoměsta. Důležitou roli sehrává rovněž fakt, že s pomocí těchto rozsáhlých informačních databází lze nalézt odpovědi na velké množství zajímavých otázek. K tomu, aby toho mohlo být v praxi dosaženo, je však zapotřebí velká výpočetní síla, kterou ne všechny organizace disponují. Projekt HPC++ Labs tento problém do jisté míry řeší alespoň u vzdělávacích institucí zaměřených na oblast financí. Jeho prostřednictvím mohou univerzity za pomoci internetu využívat sílu HPC clusteru, aniž by jej fyzicky vlastnily. Možná se tak ve světě HPC objevuje nový trend - místo přesouvání datového skladu do místa s výpočetní silou se výpočetní prostředky přemístí do místa datového skladu (byť jen virtuálně). Vzhledem k rostoucímu objemu dat se zdá být tento přístup čím dál tím lépe podložený.


Architektura výpočetního řešení HPC++ Labs je postavena převážně na produktech Microsoft. Samotný základ tvoří operační systém Windows HPC Server 2008 běžící na HPC clusteru sestaveném z 64 uzlů, které dohromady ukrývají 256 výpočetních jader. Systém je navíc opatřen 5 TB diskového prostoru a síťovým připojením s velmi nízkou latencí. Ze softwarových technologií nechybí Office SharePoint 2007 Web Portal pro publikování, vyhledávání a monitorování obsahu sdíleného mezi kantory a studenty. Dalším důležitým nástrojem uživatelského rozhraní je Excel 2007 (konkrétně Excel HPC Task Pane), pomocí něhož je umožněno zadávání výchozích dat, stejně jako prezentace výsledků. Zajímavou funkcí je Model Execution Status Notifications umožňující e-mailové informování o stavu kteréhokoliv (finančního) modelu. Nedílnou součástí platformy je tzv. Central Market Dataset (centrální obchodní databáze) obsahující historická data, včetně údajů S&P 500 (index zahrnující akcie 500 velkých většinou amerických společností) za posledních 5 let, stejně jako každodenní data o vývoji až 10 000 akcií a dalších cenných papírů. Pro zjednodušenou tvorbu modelů je k dispozici platforma .NET doplněná o dotazovací jazyk Linq umožňující přístup k datům skrze SQL dotazy. Pro parametrické modelování (parameter sweep models) pak přijde vhod SOA framework, neboli framework servisně orientované architektury. Uživatelé nepřijdou zkrátka ani, pokud jde o nepostradatelné softwarové prostředí pro lokální vývoj a testování modelů.


Spojením vysoké výpočetní síly a rozsáhlé finanční databáze vzniká potenciál pro přesnější posouzení hodnoty kapitálového majetku, resp. cenných papírů. To je nepochybně důležité pro každého finančního analytika, který zkoumá, jakou reálnou hodnotu má konkrétní cenný papír a jak se tato hodnota liší od hodnoty nominální, tedy zda je podhodnocený či naopak nadhodnocený, a zda je tím pádem dobrým či špatným objektem potenciální investice. Pro zodpovězení této otázky dnes analytici používají nový hodnotící model Mortgage Backed Security (MBS) založený na odhadech budoucího vývoje úrokových sazeb a schématech splácení úvěrů. Jinými slovy, je zapotřebí analyzovat velké množství dat a výsledky porovnat mezi sebou. Ve své podstatě jde o numerickou metodu zvanou Monte Carlo (MC), což je metoda, která k hledání řešení používá statistickou simulaci. Pokud se s uplatňováním této metody v praxi setkáme, pak je to zpravidla v kombinaci s využitím výkonného superpočítače.Programování modelu


HPC++ Labs poskytuje rovněž rozhraní parametrického modelování založené na službě Windows Communication Foundation (WCF), tedy de facto na platformě .NET Framework. S její pomocí si uživatel snadno vytvoří či přizpůsobí finanční model vůči svým potřebám, na jehož principu následně probíhají výpočetní operace vedoucí k požadovaným výsledkům. Rozhraní je napojené na automatizovaný mechanismus výpočtů, jehož princip spočívá v paralelním zpracování operací. To znamená, že všem alokovaným výpočetním uzlům se dostane stejnoměrné výpočetní zátěže, aby dílčí výsledky byly posléze poskládány do jednotného výstupu. Tato metoda umožňuje plně využít dostupných výpočetních zdrojů a optimalizovat čas potřebný pro zpracování úlohy.


Publikování a zpracování modelu


Vývoj modelu na platformě .NET lze provést použitím jediného vývojového prostředí, a tím je Microsoft Visual Studio .NET, v tomto případě ve verzi 2008. Jakmile je model dokončen, může být profesorem jednoduše publikován mezi studenty prostřednictvím webového portálu služby HPC++ CompFin Lab. Každý model je složen standardně ze dvou složek: excelovské šablony a CAB souboru. Excelovská šablona zastupuje uživatelské rozhraní pro přístup k modelu a umožňuje studentům vytvářet pracovní sešity (=excelovské sešity) zahrnující různé kombinace vstupních hodnot nebo nastavit různorodé uspořádání výsledků. CAB soubor naproti tomu obsahuje .NET prvky, které implementují rozštěpení, kalkulace a další operace s modelem, které probíhají na webovém serveru a clusteru. Po úspěšném dokončení publikační fáze mohou studenti začít vytvářet pracovní sešity založené na modelových šablonách, specifikovat vstupní hodnoty a posléze předložit model ke zpracování použitím Excel Task Pane, který nalezneme v podobě pravého sloupce přímo v aplikaci Excel. Z Excelu je model odeslán na cluster ke zpracování. Výsledky jsou poté vráceny zpět aplikaci Excel.


Pro detailní schematický popis uvedených postupů doporučuji shlédnout Lab Whitepaper (v angličtině) - http://labs.microsofthpc.net/compfin_whitepaper.pdf


Kdo se může zúčastnit


Projekt Microsoft HPC++ CompFin Lab je určen k výukovým a výzkumným potřebám vzdělávacích institucí. Profesoři mohou jeho prostřednictvím sdílet modely se svými studenty, kteří si je mohou personalizovat, odeslat ke zpracování výkonným clusterem a následně analyzovat výsledky. Studenti přitom nepotřebují nic jiného než aplikaci Excel, připojení k internetu a zřízený uživatelský účet. Pokud má kterákoliv škola zájem zúčastnit se tohoto projektu, nechť začne vyplněním formuláře "Request Enrollment" na níže uvedené adrese, kde jsou k dispozici i podrobné informace o tomto projektu, uživatelská příručka (http://labs.microsofthpc.net/compfin_usersguide.pdf) a video ukázka.


Zdroj: http://labs.microsofthpc.net/

Comments (1)

  1. Anonymous says:

    :: Michal Kvasnička, Sprinx Systems a.s. Microsoft není znám jen jako tvůrce operačních systémů, programů,

Skip to main content