Windows Data Deduplication и поддержка VHD


Сегодня хочу вкратце рассказать о Windows Data Deduplication, новой функции в Windows Server 8, и о том, как это влияет на виртуализацию.

История технологии дедупликации данных в продуктах Microsoft началась с выходом Windows 2000 Server. В Remote Installation Services использовался файловый фильтр Single Instance Storage, который находил одинаковые файлы в папке RemoteInstall и заменял их символическими ссылками. Таким образом, вы могли хранить множество дистрибутивов для распространения через RIS. Файлы дистрибутивов на диске хранились в единственном экзмпляре, существенно экономя дисковое пространство. В практически неизменном виде технология присутствует и в Windows Server 2003 RIS и в Windows Server 2008 Deployment Services. Для System Center Data Protection Manager и для Exchange Server были также созданы SIS фильтры экономии дискового пространства для резервных копий и писем соответственно. В Windows Storage Server 2003 впервые технология стала доступна для пользовательских данных. И именно в таком виде она сейчас существует в Windows Storage Server 2008 R2.

В Windows Server 8 Developer Preview сделано два больших шага. Экстенсивный шаг принёс функционал Data Deduplication из семейства Storage Server во все издания Windows Server. Достаточно просто установить опцию в Server Manager.

Более интересный, интенсивный шаг в развитии технологии перевёл фильтр с файлового уровня на блочный. Теперь не обязательно иметь одинаковые файлы для экономии дискового пространства. Достаточно чтобы эти файлы имели частично одинаковое содержимое. Совершенно логично приходят на ум VHD диски, которые в большинстве своём состоят из одних и тех же файлов. Задействовав функционал Data Deduplication на томах с виртуальными машинами и библиотеками шаблонов, мы сможем теперь существенно экономить дисковое пространство.

На версии Windows Server 8 Developer Preview я провёл интересный эксперимент. Я включил опцию Data Deduplication для моего 2ТБ внешнего жёсткого диска, на котором я хранил порядка полутора террабайт виртуальных машин.

Процесс индексирования блоков данных на USB диске занял около 20 часов. По окончании этого процесса у меня был лёгкий шок.

Технология Disk Deduplication помогла в моём случае сэкономить порядка 1.3ТБ. Количество повторявшихся блоков на диске составило 95%

Очевидно, в моём случае цифра нестандартно высокая. Вызвано это тем, что виртуальные машины в большинстве своём основаны на Windows 8 Developer Preview и Windows Server 8 Developer Preview. Если у вас большое разнообразие различных ОС, то процент экономии будет ниже.

Так как технология блочная и размер индексируемого блока равен 4КБ, технология не привязана к версии ОС и даже к файловой системе внутри виртуального диска. Для оптимального результата следует выполнять стандартные рекомендации Microsoft о дисковом смещении (disk alignment) и размере блока файловой системы (рекомендованное значение равно 64КБ) внутри виртуальных дисков.

Comments (11)

  1. Ingvar says:

    Сколько ресурсов будет занимать дедупликация? Для бэкапов интересная штука, а вот насчет использования её на боевом сервере пока непонятно. "стандартные рекомендации Microsoft о дисковом смещении (disk alignment) и размере блока файловой системы" – подскажите, пожалуйста, где об этом можно почитать?

  2. Alex A says:

    Всё это хранится внутри файловой системы. На другом Windows Server 8 с включенной функцией всё будет работать также.

    На Windows Server 8 без функции будет читаться, при записи начнут писаться блоки на физику вне зависимости от того, что есть уже на диске.

    Про старые ОС комментировать не буду, ибо не ясна позиция партии. Но пропасть данным никто не даст. Они либо просто не будут читаться, либо будут работать как в Server8 без активированной функции. Чего решат наверху пока не ясно.

  3. Alex A says:

    Красиво говорят отчёты Gartner и IDC, но они платные, ссылку так не выложишь.

    Интересная статистика приводится, например, тут: http://www.virtual-strategy.com/…/microsoft-closing-vmware-virtualization-market-share-stratus-technologies-itic-survey-fin

    По количеству новых инсталляций Hyper-V обогнал ESX год назад. За прошедшие 9 месяцев года рост количества инсталляций Hyper-V в 11 раз превышает рост инсталляций VMware.

    В количестве установленных и поддерживаемых (не мамонтов, о которых забыли) инсталляций Microsoft рассчитывает обогнать VMware в 2013 году.

  4. Alex A says:

    Пускай говорят, цифры изменяющейся доли рынка говорят громче.

    Про скорость, что именно вы имеете в виду? Влияние фильтра на скорость? Или что-то более спецефическое?

    Я думаю, что уже скоро мы получим бeтy и описания производительности. На Developer Preview тестировать инфраструктуру рановато. Моя задача дать общий обзор технологии, подготовить заказчиков и партнеров заранее.

  5. Alex A says:

    Про ресурсы официальная позиция будет озвучена после беты.

    Если предложите внятный и несложный способ замерить на ноутбуке с выделенным диском, я сделаю тест с графиками.

    Рекомендации..

    1) Диски должны быть aligned. Для 2008+ это делается автоматом. Для 2003 и ниже руками через diskpart при создании раздела.

    2) Размер кластера на CSV рекомендуется в 64КБ. VHD пишется на него блоками по 2МБ. Внутри VHD по разному, но правильнее таки тоже 64КБ, особенно для Exchange/SQL.

  6. Alex A says:

    Windows Server 8 Developer Preview доступна для подписчиков MSDN/TechNet.

    Это НЕ функционал текущего WS08R2, а лишь Windows Server 8.

  7. FixBo says:

    Хоть оно и пишет по два метра, но алигн блоков в 4 кила внутри дифф/динамик VHD испортит все при 64киловом кластере.

  8. Ruslan V. Karmanov says:

    Сейчас должны придти сотрудники VMWare и написать что-то вида:

    – К релизу всё будет гораздо хуже

    – Это не нужно

    – Будет глючить

    Вопрос – а как поменялась скорость последовательного/случайного/чтения/записи?

  9. Alex Varlamov says:

    Ни разу не сотрудник VMware, но спрошу про ссылку, в которой "…цифры изменяющейся доли рынка " громко говорят).

  10. Наиль says:

    Доброго времени!

    Вы пишите про внешний диск.

    А как этот диск будет вести себя на другом компьютере (с Windows 8 Server, с Windows 8 Server с отключенной функцией, с предыдущими версиями)?

    Где хранятся данные этой индексации?

  11. Vasy says:

    Добрый день, а где есть возможность скачать эту версию ?

Skip to main content