データクレンジングとは?
データ分析・活用の前処理として、不正確・不完全・重複・矛盾したデータを検出・修正・除去してデータ品質を高める作業
詳細解説
データクレンジング(Data Cleansing:データクリーニングとも呼ぶ)は、データ分析・機械学習・データ統合の前処理として、収集したデータに含まれる不正確・不完全・重複・矛盾した問題データを検出・修正・除去してデータ品質を高める作業です。「Garbage In, Garbage Out(ゴミを入れればゴミしか出てこない)」という原則の通り、データ品質が低いまま分析・AI学習を行っても結果の信頼性が得られません。データクレンジングで対処する問題の種類は次の通りです。欠損値(Missing Values):データが空(NULL)になっている。対処法:平均値・中央値・最頻値での補完・前後値の補間・該当レコード削除・欠損フラグの追加。外れ値・異常値(Outliers):統計的に極端に異なる値(年齢が-5歳・売上が1兆円等)。対処法:IQR法・Zスコア法で検出して除去または補正。重複レコード(Duplicates):同じデータが複数回登録されている。対処法:ハッシュや複合キーで重複検出して統合・削除。表記ゆれ(Inconsistencies):「東京都」「東京」「tokyo」が混在する。対処法:名寄せ・正規化・コードマスターへの統一。形式不統一(Format Issues):日付が「2026/05/01」「2026-05-01」「May 1, 2026」で混在。対処法:統一フォーマットへの変換。文字コードエラー:文字化けや制御文字の混入。代表的なツールはPythonのpandas/numpy・OpenRefine・Talend Data Quality・Informatica・Excel(Power Query)です。データクレンジングはETLのTransform段階の中核的作業でもあります。ITパスポートでは「データクレンジングの定義と目的」「欠損値・外れ値・重複の処理」「AIデータ前処理との関係」が出題されます。
ITパスポートでの出題ポイント
- 1欠損値・外れ値・重複・表記ゆれなどを修正してデータ品質を向上させる前処理
- 2Garbage In, Garbage Out:低品質データは分析・AI結果も低品質になる
- 3欠損値対処:平均値補完・前後補間・削除のいずれか用途に応じて選択
- 4ETLのTransform段階の中核作業。機械学習データ前処理でも必須