Tổng quan Data Deduplication
Data Deduplication là một Role Service của Windows Server 2019, dùng để xác định và loại bỏ trùng lặp trong dữ liệu mà không ảnh hưởng đến tính toàn vẹn dữ liệu. Mục tiêu của việc triển khai Data Deduplication là để lưu trữ nhiều dữ liệu hơn mà vẫn đảm bảo sử dụng ít không gian đĩa vật lý hơn.
Một trong những vấn đề mà doanh nghiệp quan tâm hàng đầu là dữ liệu, dữ liệu của họ luôn gia tăng từng ngày. Việc cần có các giải pháp mở rộng cũng như tối ưu hệ thống lưu trữ dữ liệu là điều cần thiết. Chống trùng lắp dữ liệu (Data deduplication) là một kỹ thuật để làm giảm lượng không gian lưu trữ cho tổ chức trong vấn đề lưu trữ dữ liệu. Kỹ thuật này giúp tiết kiệm dung lượng đĩa cứng đáng kể, và hoàn toàn không ảnh hưởng đến dữ liệu hoặc khả năng truy xuất dữ liệu.
Trong hầu hết các tổ chức, các hệ thống lưu trữ thường có chứa bản sao của nhiều mẩu dữ liệu. Cùng một tệp tin có thể được lưu ở nhiều nơi bởi nhiều người sử dụng khác nhau, hoặc hai hay nhiều tệp tin mà không phải là giống nhau vẫn có thể bao gồm nhiều phần dữ liệu giống nhau. Data deduplication sẽ loại bỏ các bản sao mà chỉ lưu lại một bản dữ liệu duy nhất.
Một cách tổng quát, Data Deduplication sẽ so sánh các đối tượng (thường là các tập tin hoặc các khối dữ liệu) và loại bỏ các đối tượng (bản sao) tồn tại trong tập dữ liệu. Như vậy, Data Deduplication chỉ lưu một bản dữ liệu duy nhất trong tập dữ liệu và thay thế các bản sao khác bằng cách sử dụng con trỏ để dẫn trở lại với bản được lưu trữ.
Một ví dụ cụ thể về Data Deduplication: một hệ thống thư điện tử có thể chứa 100 các tệp tin đính kèm giống nhau (có thể trong cùng một email được gửi đi) cùng có
dung lượng là 1 MB.
Nếu hệ thống email được sao lưu hoặc lưu trữ, tất cả 100 file đính kèm cần được lưu trữ và do đó cần đến 100 MB không gian đĩa cứng. Khi ứng dụng kỹ thuật Data Deduplication, chỉ có một thể hiện của tập tin đính kèm là thật sự được lưu trữ, các trường hợp còn lại sẽ chỉ được tham chiếu tới bản sao lưu. Trong trường hợp này, một nhu cầu lưu trữ 100 MB có thể được giảm xuống chỉ còn 1 MB.
Mục đích sử dụng Data Deduplication
Lợi ích chính của Data Deduplication là làm giảm số lượng ổ đĩa mà các tổ chức cần phải trang bị để lưu trữ dữ liệu. Việc loại bỏ các dữ liệu dư thừa sẽ tiết kiệm được một khoản chi phí không hề nhỏ cho mỗi tổ chức. Ở đây không chỉ có chi phí về trang bị phần cứng, mà còn cắt giảm được các chi phí liên quan như hệ thống điện nguồn, hệ thống làm mát, bảo trì, không gian đặt thiết bị.
Cài đặt Data Deduplication trên Windows Server 2019
1- Vào Server Manager > Chọn Add roles and features
2- Tại giao diện Before you begin > Chọn Next (3 lần)
3- Tại giao diện Select server roles > Chọn cài đặt Data Deduplication như hình bên dưới. Sau đó chọn Next (2 lần)
4- Tại giao diện Confirm installation selections > Chọn Install để thực hiện quá trình cài đặt. Sau khi hoàn tất chọn Close
5- Kiểm tra trạng thái Data Duduplication trên giao diện PowerShell
Vào PowerShell thực hiện lệnh 2 dòng lệnh
Get-DedupVolume và Get-DedupStatus
Kết quả như hình bên dưới. Sau khi cài đặt dịch vụ Data Duduplication chưa được kích hoạt (Enable) . Cần phải thực hiện cấu hình Data Deduplication.
Cấu hình Data Deduplication trên Windows Server 2019
1- Vào Server Manager, chọn File and Storage Services. Chọn mục Disks
2- Tại cửa sổ Volumes R_Click lên Volume cần cấu hình dịch vụ Data Deduplicatios. Chọn Configure Data Deduplication
(trong bài lab label Volume E:)
3- Tại giao diện Deduplication Settings
Mục Data deduplication: chọn General purpose file server
Deduplicate files older than (in days): nhập vào số 0
Chọn Set Deduplication Schedule… và cấu hình như nội dung bên dưới. Sau đó chọn OK (2 lần)
4- Cấu hình kiểm tra trạng thái
Tại giao diện PowerShell, thực hiện lệnh sau: Get -DedupVolume
Kiểm tra thấy dịch vụ Data Deduplication đã chuyển qua trạng thái bật (Enable)
5- Để nhận thấy và kiểm tra tính năng Deduplication Trên Volume E: sao chép các dữ liệu thành nhiều bản khác nhau. Như hình bên dưới. (Trong bài Lab Data1 có dung lượng 348 MB được sao chép thành nhiều bản)
6- Tại giao diện PowerShell, thực hiện lệnh sau: Start-DedupJob E: -Type Optimization
7- Tại giao diện PowerShell, thực hiện lệnh sau: Get-Dedupstatus | fl (Kiểm tra kết quả thực hiện)
8- Trong Server Mnagaer > Vào Properties Volume E: kiểm tra đảm bảo Data Duduplication hoạt động