Deduplikacja danych polega na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie. Stosowana w celu celu wyeliminowania powtarzających się rekordów. Podobne rekordy są wyszukiwane za pomocą zaawansowanych algorytmów, a następnie jest oceniane ich podobieństwo. Pary znalezionych rekordów są kwalifikowane do jednej z trzech grup: rekordów takich samych, podobnych i różnych.