テクノロジ系データベース

データクレンジングとは？

読み方: でーたくれんじんぐ

1行定義

データ分析・活用の前処理として、不正確・不完全・重複・矛盾したデータを検出・修正・除去してデータ品質を高める作業

詳細解説

データクレンジング（Data Cleansing：データクリーニングとも呼ぶ）は、データ分析・機械学習・データ統合の前処理として、収集したデータに含まれる不正確・不完全・重複・矛盾した問題データを検出・修正・除去してデータ品質を高める作業です。「Garbage In, Garbage Out（ゴミを入れればゴミしか出てこない）」という原則の通り、データ品質が低いまま分析・AI学習を行っても結果の信頼性が得られません。データクレンジングで対処する問題の種類は次の通りです。欠損値（Missing Values）：データが空（NULL）になっている。対処法：平均値・中央値・最頻値での補完・前後値の補間・該当レコード削除・欠損フラグの追加。外れ値・異常値（Outliers）：統計的に極端に異なる値（年齢が-5歳・売上が1兆円等）。対処法：IQR法・Zスコア法で検出して除去または補正。重複レコード（Duplicates）：同じデータが複数回登録されている。対処法：ハッシュや複合キーで重複検出して統合・削除。表記ゆれ（Inconsistencies）：「東京都」「東京」「tokyo」が混在する。対処法：名寄せ・正規化・コードマスターへの統一。形式不統一（Format Issues）：日付が「2026/05/01」「2026-05-01」「May 1, 2026」で混在。対処法：統一フォーマットへの変換。文字コードエラー：文字化けや制御文字の混入。代表的なツールはPythonのpandas/numpy・OpenRefine・Talend Data Quality・Informatica・Excel（Power Query）です。データクレンジングはETLのTransform段階の中核的作業でもあります。ITパスポートでは「データクレンジングの定義と目的」「欠損値・外れ値・重複の処理」「AIデータ前処理との関係」が出題されます。

ITパスポートでの出題ポイント

1欠損値・外れ値・重複・表記ゆれなどを修正してデータ品質を向上させる前処理
2Garbage In, Garbage Out：低品質データは分析・AI結果も低品質になる
3欠損値対処：平均値補完・前後補間・削除のいずれか用途に応じて選択
4ETLのTransform段階の中核作業。機械学習データ前処理でも必須

データクレンジングとは？

詳細解説

ITパスポートでの出題ポイント

関連用語

「データクレンジング」の過去問を解いて理解を定着