해쉬

21 Jan 2021 in Algorithms

Direct-Address Tables

hash 함수는 임의의 크기의 데이터를 받아서 이 데이터를 고정된 크기로 바꿔준다.
key k를 저장할 때, slot k에 직접 저장하는 것이 아니라 , h(k)를 계산해서 넣는다.
동일한 해쉬값을 가지는 키가 생기는 문제가 생긴다.
- 이걸 chianing 방법으로 해결해준다. 중복되는 key값이 있으면 해당 슬롯을 연결 리스트로 저장한다.
- 이때문에 최악의 경우 데이터 검색 시 Θ(n)의 시간복잡도를 가진다.
공간의 효율성은 좋다.

그렇담, 좋은 해쉬 함수란?

simple uniform hasing 만족하는 해쉬함수
- 각각의 key는 중복없이 m 개의 slot으로 동일한 확률로 해쉬되며
- 각각의 key는 다른 key값의 해쉬값과 상관없이 해쉬된다.
ex) h(k) = k mod 701

Linear Probing

슈도코드

Hash-Search(T,k)
	i=0
	repeat
		j=h(k,j)
		if T[j]==k
			return j
			i++
		until T[j] = NIL or i==m
			return NIL

테이블 전체를 다 뒤졌거나, 빈칸이 나올때 까지 search 를 한다.
빈칸이 나올때 까지라는 조건때문에 삭제할 때 조심해야한다. 그래서 삭제할때 빈칸으로 바꾸지 않고(빈공간이 나오지 않게한다.) Deleted 표시한다.
구현은 쉬우나 primary clustering 문제가 있다. (충돌하면 다음 빈칸에 채우기 때문에 정보들이 cluster로 뭉쳐있을 확률이 크다.)

**Quadratic Probicng

Double Hashing

충돌 시 다른 hashing을 또 이용해 값을 저장

h1(k) = k mod 13
h2(k) = 1 + (k mod 11)
h(k,i) = (h1(k) + i*h2(k)) mod 13)