중복 데이터 제거 대용량 백업 시스템 기간 : 2008.7 - 2009.6
 

연구 목표
 현재의 스토리지 시스템은 하드웨어 및 네트워크 기술의 발달로 인하여 디지털 데이터는 엄청난 속도로 증가하고 있다. 이러한 대용량의 디지털 데이터들에는 중복데이터가 많은 부분을 차지하고 있는데, 이는 스토리지의 낭비를 초래하게 된다. 이러한 중복데이터로 인한 스토리지의 낭비는 사용되는 디지털 데이터의 양이 늘어남에 따라 급속도로 증가하고 있으며 따라서 중복된 데이터를 관리하여 스토리지의 용량을 효율적으로 관리하는 기술이 필요하다.  본 연구에서는 중복데이터를 효과적으로 관리하여 스토리지의 공간을 효율적으로 사용할수 있도록 개발되었던 중복제거 백업시스템의 문제점을 보완하고 효과적인 인덱스 관리방법 및 사용성, 효율성등을 높일수 있는 방법을 제시한다.
 
연구 내용
기존시스템 개선 기존 개발된 중복제거 백업 시스템의 성능향상을 위해 청크의 압축 및 Incremental/Differential백업등 백업 시스템의 사용성을 높일수 있는 기능들을 개선한다.
청킹 알고리즘의 개선 현재 중복판별을 위해 사용되는 가변크기 청크를 생성하는데 사용되는 CPU의 양이 병목현상을 유발하고 있다. 새로운 청킹 알고리즘 및 청킹시 사용되는 Hash알고리즘의 개선, 개발을 통해 성능을 향상시킨다.
인덱스 관리방법의 개선 평균 청크의 크기를 8KB로 하였을때 1테라의 데이터를 관리하는데는 약 1.3억개의 인덱스가 필요하게 된다. 따라서 점점 커져가는 사용자의 데이터를 백업, 관리하기 위해서는 이러한 인덱스를 효과적으로 관리하는 방법이 요구된다. 본 연구에서는 분산 블룸필터, 다중 인덱스, 인덱스 캐시 정책, 인덱스 중복 허용 등의 기법을 이용하여 인덱스 관리 방법을 개선시킨다.
SSD를 이용한 인덱스 관리방법의 개발 SSD는 HDD에 비해 월등한 탐색속도를 가지고 있는 차세대 매체로서 이 SSD를 사용할경우 인덱스 관리에 드는 오버헤드를 효과적으로 감소시킬수 있다. 본 연구에서는 SSD에 최적화된 인덱스 관리방법을 개발한다.
 

그림 1. 중복 제거 백업시스템 PRUN의 구성도
 

그림 2. PRUN의 인덱스 관리방법