해싱 기법을 이용한

데이터 중복감지 파일시스템 연구
기간 : 2007.7 - 2008.6

지원기관 : 중소기업청
 

연구 목표
 다수 파일을 저장하는 대용량 저장 시스템 환경 하에서는 중복된 데이터 블록이 다수 발생한다. 본 연구에서는 중복된 데이터를 인지하여 단일 데이터만을 보관함으로서 저장공간의 활용 공간을 극대화하는 시스템 모듈을 개발한다. 또한, 데이터 블록의 중복 검사에 사용되는 해시 함수를 저장장치 환경에 적합하게 최적화 한다.  기존 사용되는 해시 알고리즘보다 빠르고 정확한 알고리즘을 개발, 저장공간 및 속도의 두가지 측면에서 효율적인 동작을 할 수 있도록 한다.
 
연구 내용
 스토리지 시스템은 네트워크 시스템의 발달과 맞물려 엄청난 속도로 발전하고 있다. 사용자들은 저장매체에 매우 대용량 데이터를 저장하거나 네트워크를 통하여 전송한다. 컴퓨터에 저장되는 자료의 많은 부분은 동일한 내용을 중복포함하고 있으며 이러한 문제는 점차 심각해지고 있다. 일반적으로 이러한 중복데이터 문제는 백업과 같은 작업으로 인해 자주 발생하며 일상생활에서 가장 쉽게 접할수 있는 사례로는 다수의 사용자에게 데이터가 첨부된 이메일을 전송할 때와 웹에서 동일한 파일을 다시 받는 경우 등을 들수있다. 중복데이터는 예전에도 존재했었지만 최근의 고용량 시스템에서는 다루는 데이터의 크기의 증가로 인하여 중복 데이터에 의해 소모되는 용량이 증가하게 되었다.
 이러한 중복 데이터를 효과적으로 감지하여 회피할수 있다면 스토리지 시스템의 불필요한 용량 낭비를 줄임으로서 보다 더 효율적으로 사용할수 있을것이다. 이러한 중복 데이터를 제거하는 방법은 백업이나 아카이벌 스토리지 시스템에 제안되었고 이미 많은 연구가 진행되고 있다. 하지만 기존의 기술은 백업에 최적화 되어있기에 웹 스토리지와 같은 데이터 제공 시스템에 적용하기에는 문제가 있다. 또한, 기존의 파일시스템은 중복된 데이터를 고려하지 않고 개발되었기 때문에 중복 데이터를 제거하기 위해서는 이러한 중복 데이터를 감지하는 방법이 요구된다. 중복데이터를 감지하기 위하여 데이터를 Chunk라 부르는 단위로 나누어 중복 검사를 하고 이 중복 검사에 해시를 사용하여 기존 사용하고 있는 시스템의 성능에 커다란 저하없이 중복 데이터를 제거하는 효율적인 시스템을 개발한다.