File Classification Infrastructure


Opowiadajac podczas konferencji MTS o niewatpliwych zaletach Windows Server 2008 R2 pokazalem na zywo tylko kilka funkcjonalnosci i to wlasnie tytulowy mechanizm FCI zostal przedstawiony jako pierwszy. FCI jest nowoscia niedostepna we wczesniejszych wersjach systemu i w przeciwienstwie do wielu innych udoskonalen – dziala wylacznie po stronie serwera, bez ogladania sie na wersje systemów klienckich. Prostota uzycia, dostepnosc w kazdej wersji serwera i brak wymagan dla klientów sprawia, ze FCI mozna uzyc praktycznie natychmiast, na kazdym serwerze 2008R2 pelniacym role serwera plików.

Idea FCI jest bardzo prosta i sprowadza sie do dwóch zadan:

  1. Klasyfikacji pliku
  2. Wykonania zadan na plikach stosownie do ich klasyfikacji.

Diabel oczywiscie tkwi w szczególach i zwlaszcza mechanizm klasyfikacji pliku moze budzic pewne watpliwosci u administratorów konfigurujacych go po raz pierwszy. Wynika to glównie z faktu, ze mechanizm, ten skonstruowany zostal maksymalnie elastycznie i zamiast prostego kreatora, do dyspozycji mamy interfejs z wieloma opcjami, z których najcenniejsze dostepne sa po kliknieciu przycisków zawierajacych slowo "Advanced". Poza detalami technicznymi, myslac o klasyfikacji plików, warto znac równiez sposób i kryteria tej klasyfikacji. Dlatego, moja niesmiala sugestia brzmi nastepujaco: skonfiguruj i przetestuj FCI w srodowisku laboratoryjnym i poznaj jego mozliwosci. Gdy bedziesz juz dokladnie wiedziec co da sie w praktyce zrobic – porozmawiaj z biznesem. To zwykle sa ich dane, wiec to oni powinni podejmowac decyzje o tym jak je traktowac. IT powinno robic to, czego pragnie biznes, ale czasem warto im podpowiedziec, ze cos zrobic sie da i ze nie bedzie to duzo kosztowalo.

Majac juz wiedze o tym, jak chcemy pliki klasyfikowac, musimy przelozyc ja na atrybuty. Przykladem moze byc atrybut "Dane osobowe" przyjmujacy wartosci TAK lub NIE. Albo "Klauzula tajnosci " z wartosciami Jawne/Zastrzezone/Poufne/Tajne/Scisle tajne. Albo "Data obowiazywania", gdzie wartosci sa data z kalendarza. Do dyspozycji mamy typy:

  • Tak/Nie
  • Data i czas
  • Liczba
  • Lista wielokrotnego wyboru
  • Lista jednokrotnego wyboru
  • Lancuch tekstowy
  • Kilka lancuchów tekstowych

Jak ich w praktyce uzyc i do czego – to wlasnie powinien mniej lub bardziej jasno powiedziec biznes.

Typy te latwo przelozyc na konfiguracje serwera w specjalnym interfejsie FSRM, w galezi Classification Management / Classification Properties:

FCI01

Nastepnym, bardzo istotnym krokiem jest utworzenie zasad, wedlug których plikom nadane zostana skonfigurowane wczesniej atrybuty. To tak naprawde dosc trudny etap, bo skoro autor czasem nie jest w stanie jednoznacznie powiedziec jak wazny jest dokument, to czego mozna oczekiwac od programu? Tak wiec, podstawa sa najpierw jasne kryteria. Dopiero gdy je mamy, mozemy myslec o nauczeniu serwera jak to robic automatycznie.

Metoda pierwsza jest bardzo prosta i oddaje uzytkownikowi istotna czesc decyzji. Jezeli plik trafia do folderu X, to nadajemy mu atrybut Y. Plik taki, niezaleznie gdzie sobie potem powedruje, atrybut juz ma. Dla jasnosci warto tutaj zwrócic uwage, jak nadawanie atrybutów jest realizowane. Tam gdzie format pliku (na przyklad DOCX) pozwala na opisywanie pliku dodatkowymi atrybutami, tam funkcjonalnosc ta jest wykorzystywana. Jezeli nie da sie tego zrobic (na przyklad dla plików tekstowych) – uzywane sa Alternate Data Streams.

fci02

Wewnatrz alternatywnego strumienia, dane zapisywane sa w wewnetrznym binarnym formacie, wiec nie sa szczególnie interesujace dla uzytkowników. Uzycie ADS oznacza równiez, ze skopiowanie raz sklasyfikowanego pliku na inny wolumen NTFS sprawi, ze klasyfikacja zostanie skopiowana razem z plikiem. Warto o tym wiedziec zwlaszcza, ze domyslne ustawienia FCI mówia, ze raz nadane atrybuty nie beda juz modyfikowane, nawet gdy plik trafi do folderu, w którym obowiazuja inne zasady. Mozna to oczywiscie zmienic, uzywajac standardowego interfejsu zarzadzajacego.

FCI03

Druga (oprócz polozenia w folderze X) metoda klasyfikacji opiera sie na tresci pliku. Tutaj oczywiscie nie chodzi o binarna zawartosc tylko o faktycznie zapisana informacje. System Windows potrafi przeczytac i zrozumiec wiele formatów plików dzieki mechanizmom tak zwanych iFilters. Metoda ta znana i stosowana jest od czasów, gdy ktos wpadl na pomysl, ze system móglby indeksowac pliki. Jezeli jakis iFilter jest dla danego typu plików zarejestrowany – system zrozumie zapisane dane. Zrozumie pliki Office, pliki TIFF (tutaj obrazki sa rozpoznawane mechanizmami OCR), pliki PDF (po doinstalowaniu dodatkowego iFiltra) czy dowolny inny format. Mechanizm iFilters jest znany od dawna, dobrze udokumentowany i sprawdza sie od lat w praktyce.
Aby klasyfikowac pliki na podstawie tresci, nalezy utworzyc regule i przelaczyc w niej domyslny tryb "Folder Classifier" na "Content Classifier", po czym kliknac "Advanced", przelaczyc na zakladke "Additional Classification Parameters" i tam wpisac co musi zawierac tresc pliku, zeby automat nadal mu okreslona klasyfikacje.

fci04

Mozemy tu uzywac prostych porównan, wyrazen regularnych i w ogóle elastycznosc mechanizmu jest spora, ale sprawdzi sie pod warunkiem, gdy administrator rzeczywiscie wie, czego chce.

Na koniec, warto wspomniec o automatach, które sklasyfikowane pliki moga automatycznie w jakis sposób przetworzyc. Tworzy sie je, wybierajac z drzewa w lewej czesci okna pozycje "File Management Tasks" i tworzac nowe zadanie. Po nazwaniu go i okresleniu folderów, mozna utworzyc praktycznie dowolny automat, który wykona zadane operacje o zadanym czasie.

fci05

Gotowe!

Jak widac, zarzadzanie FCI nie jest bardzo trudne, jezeli tylko wiemy, co tak naprawde chcemy uzyskac. FCI juz jest i dziala w systemie, wiec warto z niego skorzystac.

Na koniec jeszcze raz powtórze, to co jasno staralem sie pokazac w tresci: pliki na serwerze zawieraja zwykle dane nie nalezace wcale do IT. IT dostalo je tylko pod troskliwa opieke. Dlatego, wszelkie istotne dzialania na plikach koniecznie nalezy z wlascicielem danych uzgodnic.

Autor: Grzegorz Tworek [MVP]

Comments (2)

  1. ad 1) pytanie, czy na wszystkich serwerach faktycznie ma być tak samo? To po co wiele serwerów w takiej sytuacji… wydaje mi się, że oskryptowanie się sprawdzi, jeżeli naprawdę pełnej powtarzalności potrzebujesz.

    ad 2) trochę masz rację. I znowu moje pytanie: czy to faktycznie wada FCI?

    IMHO szeroko używany nie jest głównie dlatego, że serwery plików na 2008R2 są rzadkością i nowością. Z czasem będzie lepiej. 🙂

  2. ToMeK says:

    Gdy pierwszy raz, jeszcze przed premierą widziałem FCI na prezentacji wydawał mi się świetnym pomysłem – do czasu gdy zadałem pytania. I tutaj myśle też tkwi problem dlaczego nie jest szeroko używany. Główne zastrzeżenia albo punktu z mojej strony co do wdrożenia FCI:

    – brak mechanizmu spójnego zarządzania konfiguracją na wszystkich serwerach w organizacji. Nie ma mechanizmu pozwalającego na zrobienie 'push' polityki na wszystkie maszyny. Można dystrybucję konfiguracji oskryptować, ale pytanie czy to jest rozwiązanie, które jest do ogarnięcia w dużej skali.  Do ogarnięcia jest, to wiem … w końcu administrator potrafi. Pytanie czy to dobry sposób zarządzania tego typu rzeczami

    – brak mechanizmu zapewniającego spójność przyjętej taksonomii opisu plików, chociażby pomiędzy FS i Sharepoint gdzie taka istnieje. Ja wiem że to kwestia biznesu bardziej, ale jeżeli biznes ma możliwość tworzenia "tagów" i opisywania plików na SPS, a potem te pliki lądują na FS gdzie jest już totalnie inna polityka, i trafaja ponownie na SPS. Zaczyna się rozjazd.

    I tak, doczytałem to co napisałeś, czyli : (…) Jak widać, zarządzanie FCI nie jest bardzo trudne, jeżeli tylko wiemy, co tak naprawdę chcemy uzyskać. FCI już jest i działa w systemie, więc warto z niego skorzystać. (…). Tylko to punkt widzenia od strony technologicznej, od strony merytorycznej ten mechanizm już aż taki gotowy nie jest. Trochę przypomina kilka innych przypadków, gdzie w systemie mamy fajne możliwości a nie mamy do nich tego małego "czegoś" co by zamkneło rozwiązanie.

    Teraz z Win8 dodatkowo dojdzie nam warstwa polityki dostępu, która będzie również uwzględniała kalsyfikację plików, i z moich ostatnich rozmów na TEC wynika, że problemy jakie występowały przy FCI w kwestii spójności zarządzania tą informacją, zostaną przeniesione również na tą warstwę.

    I żeby nie było że marudzę – FCI to naprawdę fajny mechanizm, po prostu wydaje mi się że te rzecyz które wspomniałem, powodują że nie jest szeroko używany.

Skip to main content