File Classification Infrastructure

Article
10/23/2011

Opowiadajac podczas konferencji MTS o niewatpliwych zaletach Windows Server 2008 R2 pokazalem na zywo tylko kilka funkcjonalnosci i to wlasnie tytulowy mechanizm FCI zostal przedstawiony jako pierwszy. FCI jest nowoscia niedostepna we wczesniejszych wersjach systemu i w przeciwienstwie do wielu innych udoskonalen – dziala wylacznie po stronie serwera, bez ogladania sie na wersje systemów klienckich. Prostota uzycia, dostepnosc w kazdej wersji serwera i brak wymagan dla klientów sprawia, ze FCI mozna uzyc praktycznie natychmiast, na kazdym serwerze 2008R2 pelniacym role serwera plików.

Idea FCI jest bardzo prosta i sprowadza sie do dwóch zadan:

Klasyfikacji pliku
Wykonania zadan na plikach stosownie do ich klasyfikacji.

Diabel oczywiscie tkwi w szczególach i zwlaszcza mechanizm klasyfikacji pliku moze budzic pewne watpliwosci u administratorów konfigurujacych go po raz pierwszy. Wynika to glównie z faktu, ze mechanizm, ten skonstruowany zostal maksymalnie elastycznie i zamiast prostego kreatora, do dyspozycji mamy interfejs z wieloma opcjami, z których najcenniejsze dostepne sa po kliknieciu przycisków zawierajacych slowo "Advanced". Poza detalami technicznymi, myslac o klasyfikacji plików, warto znac równiez sposób i kryteria tej klasyfikacji. Dlatego, moja niesmiala sugestia brzmi nastepujaco: skonfiguruj i przetestuj FCI w srodowisku laboratoryjnym i poznaj jego mozliwosci. Gdy bedziesz juz dokladnie wiedziec co da sie w praktyce zrobic – porozmawiaj z biznesem. To zwykle sa ich dane, wiec to oni powinni podejmowac decyzje o tym jak je traktowac. IT powinno robic to, czego pragnie biznes, ale czasem warto im podpowiedziec, ze cos zrobic sie da i ze nie bedzie to duzo kosztowalo.

Majac juz wiedze o tym, jak chcemy pliki klasyfikowac, musimy przelozyc ja na atrybuty. Przykladem moze byc atrybut "Dane osobowe" przyjmujacy wartosci TAK lub NIE. Albo "Klauzula tajnosci " z wartosciami Jawne/Zastrzezone/Poufne/Tajne/Scisle tajne. Albo "Data obowiazywania", gdzie wartosci sa data z kalendarza. Do dyspozycji mamy typy:

Tak/Nie
Data i czas
Liczba
Lista wielokrotnego wyboru
Lista jednokrotnego wyboru
Lancuch tekstowy
Kilka lancuchów tekstowych

Jak ich w praktyce uzyc i do czego – to wlasnie powinien mniej lub bardziej jasno powiedziec biznes.

Typy te latwo przelozyc na konfiguracje serwera w specjalnym interfejsie FSRM, w galezi Classification Management / Classification Properties:

Nastepnym, bardzo istotnym krokiem jest utworzenie zasad, wedlug których plikom nadane zostana skonfigurowane wczesniej atrybuty. To tak naprawde dosc trudny etap, bo skoro autor czasem nie jest w stanie jednoznacznie powiedziec jak wazny jest dokument, to czego mozna oczekiwac od programu? Tak wiec, podstawa sa najpierw jasne kryteria. Dopiero gdy je mamy, mozemy myslec o nauczeniu serwera jak to robic automatycznie.

Metoda pierwsza jest bardzo prosta i oddaje uzytkownikowi istotna czesc decyzji. Jezeli plik trafia do folderu X, to nadajemy mu atrybut Y. Plik taki, niezaleznie gdzie sobie potem powedruje, atrybut juz ma. Dla jasnosci warto tutaj zwrócic uwage, jak nadawanie atrybutów jest realizowane. Tam gdzie format pliku (na przyklad DOCX) pozwala na opisywanie pliku dodatkowymi atrybutami, tam funkcjonalnosc ta jest wykorzystywana. Jezeli nie da sie tego zrobic (na przyklad dla plików tekstowych) – uzywane sa Alternate Data Streams.

Wewnatrz alternatywnego strumienia, dane zapisywane sa w wewnetrznym binarnym formacie, wiec nie sa szczególnie interesujace dla uzytkowników. Uzycie ADS oznacza równiez, ze skopiowanie raz sklasyfikowanego pliku na inny wolumen NTFS sprawi, ze klasyfikacja zostanie skopiowana razem z plikiem. Warto o tym wiedziec zwlaszcza, ze domyslne ustawienia FCI mówia, ze raz nadane atrybuty nie beda juz modyfikowane, nawet gdy plik trafi do folderu, w którym obowiazuja inne zasady. Mozna to oczywiscie zmienic, uzywajac standardowego interfejsu zarzadzajacego.

Druga (oprócz polozenia w folderze X) metoda klasyfikacji opiera sie na tresci pliku. Tutaj oczywiscie nie chodzi o binarna zawartosc tylko o faktycznie zapisana informacje. System Windows potrafi przeczytac i zrozumiec wiele formatów plików dzieki mechanizmom tak zwanych iFilters. Metoda ta znana i stosowana jest od czasów, gdy ktos wpadl na pomysl, ze system móglby indeksowac pliki. Jezeli jakis iFilter jest dla danego typu plików zarejestrowany – system zrozumie zapisane dane. Zrozumie pliki Office, pliki TIFF (tutaj obrazki sa rozpoznawane mechanizmami OCR), pliki PDF (po doinstalowaniu dodatkowego iFiltra) czy dowolny inny format. Mechanizm iFilters jest znany od dawna, dobrze udokumentowany i sprawdza sie od lat w praktyce.
Aby klasyfikowac pliki na podstawie tresci, nalezy utworzyc regule i przelaczyc w niej domyslny tryb "Folder Classifier" na "Content Classifier", po czym kliknac "Advanced", przelaczyc na zakladke "Additional Classification Parameters" i tam wpisac co musi zawierac tresc pliku, zeby automat nadal mu okreslona klasyfikacje.

Mozemy tu uzywac prostych porównan, wyrazen regularnych i w ogóle elastycznosc mechanizmu jest spora, ale sprawdzi sie pod warunkiem, gdy administrator rzeczywiscie wie, czego chce.

Na koniec, warto wspomniec o automatach, które sklasyfikowane pliki moga automatycznie w jakis sposób przetworzyc. Tworzy sie je, wybierajac z drzewa w lewej czesci okna pozycje "File Management Tasks" i tworzac nowe zadanie. Po nazwaniu go i okresleniu folderów, mozna utworzyc praktycznie dowolny automat, który wykona zadane operacje o zadanym czasie.

Gotowe!

Jak widac, zarzadzanie FCI nie jest bardzo trudne, jezeli tylko wiemy, co tak naprawde chcemy uzyskac. FCI juz jest i dziala w systemie, wiec warto z niego skorzystac.

Na koniec jeszcze raz powtórze, to co jasno staralem sie pokazac w tresci: pliki na serwerze zawieraja zwykle dane nie nalezace wcale do IT. IT dostalo je tylko pod troskliwa opieke. Dlatego, wszelkie istotne dzialania na plikach koniecznie nalezy z wlascicielem danych uzgodnic.

Autor: Grzegorz Tworek [MVP]

File Classification Infrastructure

Additional resources