본문 바로가기
#2 엑셀 오류 가이드

엑셀 데이터 병합 시 중복 데이터 처리 방법

by 이세계의엑셀 2024. 11. 9.
반응형

엑셀에서 데이터를 병합하는 과정에서 중복 데이터는 흔히 발생하는 문제입니다. 중복 데이터를 효율적으로 처리하면 작업 시간을 줄이고 데이터의 정확도를 높일 수 있습니다. 이 글에서는 중복 데이터를 확인하고 제거하며, 특정 상황에 따라 데이터를 병합하는 방법을 초보자도 쉽게 따라 할 수 있도록 단계별로 설명합니다.

 


1. 중복 데이터란?

중복 데이터는 동일하거나 유사한 데이터가 데이터셋 내 여러 위치에 반복적으로 존재하는 것을 말합니다.
예를 들어, 직원 데이터에서 동일한 이름이 반복되거나 거래 기록에서 같은 고객 ID가 여러 번 나타나는 경우가 이에 해당합니다.

중복 데이터 발생 사례

데이터 유형 중복 예시
고객 정보 동일한 고객 이름 또는 ID가 여러 번 등장
판매 기록 동일한 제품이 여러 번 입력됨
직원 명단 동일한 직원 이름이 중복 기록됨
설문조사 응답 동일 응답자가 여러 번 응답

중복 데이터의 문제점

  • 데이터 분석 결과 왜곡
  • 데이터 파일 크기 증가로 처리 속도 저하
  • 잘못된 의사 결정 가능성
  • 불필요한 데이터로 인해 혼란 초래

2. 중복 데이터 확인 방법

중복 데이터를 식별하는 다양한 방법을 알아봅니다.

방법 1: 조건부 서식으로 중복 값 확인

조건부 서식은 중복 데이터를 시각적으로 확인하는 데 유용합니다.

  1. 범위 선택: 중복 여부를 확인하려는 데이터 범위를 선택합니다.
  2. 조건부 서식 설정: 탭 → 조건부 서식규칙 만들기중복 값을 선택합니다.
  3. 서식 지정: 중복 데이터를 강조 표시하기 위해 색상 등 시각적 효과를 설정합니다.

예시: 직원 이름 리스트에서 중복된 이름을 빨간색으로 표시합니다.


방법 2: 필터 기능 사용

엑셀의 필터 기능은 중복된 데이터를 손쉽게 걸러낼 수 있습니다.

  1. 데이터가 있는 열을 선택합니다.
  2. 데이터 탭 → 필터를 활성화합니다.
  3. 필터 드롭다운 메뉴에서 고급 필터를 선택한 뒤, 고유 값만 표시를 체크합니다.

활용: 고객 ID 목록에서 고유 고객만 추출할 때 유용합니다.


방법 3: 수식으로 중복 확인

수식을 사용하면 중복 데이터를 명확히 식별할 수 있습니다.

=COUNTIF(A:A, A2) > 1
  • 이 수식은 A열에서 A2 값과 동일한 데이터가 몇 번 나타나는지 확인합니다.
  • 결과가 TRUE이면 해당 데이터는 중복입니다.

3. 중복 데이터 제거 방법

중복 데이터를 제거할 때 사용할 수 있는 몇 가지 유용한 방법을 소개합니다.

방법 1: 기본 기능으로 중복 제거

엑셀의 중복 제거 기능은 간단하고 빠르게 사용할 수 있습니다.

  1. 범위 선택: 중복 제거를 원하는 데이터를 포함한 셀 범위를 선택합니다.
  2. 데이터 탭 → 중복 항목 제거 클릭.
  3. 중복 제거 기준이 될 열을 선택하고 확인을 누릅니다.

예시: 고객 ID 목록에서 중복된 데이터를 제거하고 고유 데이터를 유지합니다.


방법 2: 피벗 테이블 활용

피벗 테이블은 대량 데이터를 효율적으로 분석하면서 중복을 제거할 때 유용합니다.

  1. 삽입 탭 → 피벗 테이블 클릭.
  2. 데이터를 선택하고 새로운 워크시트에 피벗 테이블을 생성합니다.
  3. 고유 데이터 기준으로 그룹화하여 중복 제거.

활용: 거래 기록에서 고객별 구매 데이터를 요약할 때 유용합니다.


방법 3: Power Query로 중복 제거

Power Query는 데이터 병합 및 중복 제거를 손쉽게 처리할 수 있는 도구입니다.

  1. 데이터 탭 → 데이터 가져오기Power Query Editor 열기.
  2. 데이터를 불러온 후, 탭 → 중복 제거를 선택합니다.

추천 대상: 대량 데이터 또는 복잡한 데이터셋에서 중복을 제거해야 할 때 사용.


4. 중복 데이터 처리 시 주의사항

처리 전 점검사항

  1. 원본 데이터 백업: 데이터를 수정하기 전에 반드시 원본을 백업하세요.
  2. 중복 기준 확인: 어떤 열 또는 조건을 기준으로 중복 여부를 판단할지 명확히 정의하세요.
  3. 검증 작업 필수: 중복 제거 후 데이터가 올바르게 처리되었는지 검토하세요.

5. 중복 데이터를 대체하거나 병합하기

중복 데이터를 단순히 삭제하지 않고, 특정 방식으로 병합하거나 대체할 수도 있습니다.

방법 1: 숫자 데이터를 평균값으로 대체

숫자 데이터의 경우, 중복 항목을 평균값으로 병합할 수 있습니다.

=AVERAGEIF(A:A, A2, B:B)
  • 이 수식은 A열의 특정 값과 일치하는 데이터에 대해 B열의 평균값을 계산합니다.

방법 2: 텍스트 데이터를 병합

중복된 텍스트 데이터를 하나로 병합하려면 아래 수식을 사용합니다.

=TEXTJOIN(", ", TRUE, IF(A:A=A2, B:B, ""))
  • 이 수식은 A열에서 중복 항목에 대해 B열 데이터를 쉼표로 구분하여 병합합니다.

방법 3: 최신 데이터 유지

중복 데이터 중 날짜가 포함된 경우, 최신 데이터를 우선으로 유지할 수 있습니다.

  1. 날짜 열을 기준으로 데이터를 정렬(오름차순 또는 내림차순).
  2. 중복 제거를 수행하여 최신 데이터를 남깁니다.

활용: 고객별 가장 최근 주문 기록을 유지할 때 유용합니다.


6. 실제 활용 예제

예제 1: 이름 목록에서 중복 제거

데이터:
| 이름 |
|-----------|
| 김철수 |
| 이영희 |
| 김철수 |
| 박민수 |

결과:
| 이름 |
|-----------|
| 김철수 |
| 이영희 |
| 박민수 |


예제 2: 중복된 고객 ID와 주문 수량 병합

데이터:
| 고객 ID | 주문 수량 |
|---------|-----------|
| 001 | 5 |
| 002 | 10 |
| 001 | 7 |

결과:
| 고객 ID | 총 주문 수량 |
|---------|--------------|
| 001 | 12 |
| 002 | 10 |


예제 3: 제품 데이터 병합

데이터:
| 제품명 | 가격 |
|----------|-------|
| 노트북 | 1000 |
| 노트북 | 1100 |
| 스마트폰 | 800 |

결과:
| 제품명 | 평균 가격 |
|----------|----------|
| 노트북 | 1050 |
| 스마트폰 | 800 |


7. FAQ

Q1. 데이터를 삭제 후 복구할 수 있나요?

  • 삭제하기 전 데이터를 백업했다면 복구가 가능합니다. 백업이 없다면 Ctrl+Z로 작업을 취소하세요.

Q2. 중복 제거 후 데이터 손실을 방지하려면?

  • 제거 전 백업을 하고, 중복 기준을 명확히 설정하세요.``
반응형