データ前処理をAIで実施する方法

こんな風に思っていませんか?

  • AIを利用したデータ分析に興味がある
  • データ分析の前処理でどのようにAIを活用されるか知りたい
  • AIを活用しながらデータ分析できるようになりたい

もしこのように思っている場合は、こちらの記事がピッタリです。

データ分析の深い知識を持っていなくても、「データ分析の流れ」と「AIを活用したデータ分析方法」を知っていれば、データ分析はできるようになります。

今回はデータ分析のデータ前処理でAIができることについてご紹介します。

データ分析には下記の7つのステップがありますが、こちらの記事でデータ前処理でAIが使えるようになります。

  1. 目的定義
  2. 事前仮説(データ収集の方針を決める)
  3. データ収集
  4. データ前処理
  5. データ観察(発見)
  6. データ検証(確認)
  7. 結果の解釈

データ分析のデータの前処理は何をする?

データ前処理の特徴づけ

データ分析のデータ前処理は何のために実施されるのでしょうか?

その理由はデータ分析できるようにデータクリーニングする必要があるからです。

そして、データ前処理の主な作業は下記のとおりです。

  1. 欠損値処理
  2. 外れ値処理
  3. データの型を統一
  4. 特徴づけ
  5. データベースの統合・結合

それぞれの意味をご紹介します。

欠損値処理

データの空白を欠損値と言います。

たとえばお客様にアンケートを実施した時にお客様が年齢や性別などを未記入にすると空のデータになります。
これを欠損値と言います。

外れ値処理

外れ値はデータの異常値を言います。

たとえばマーケティング施策と売上金額の相関についてデータ分析をする時、もし一人のお客様が異常なほど高額な買い物をすると、データ分析が大きく狂ってしまいます。

この外れ値の処理方法はデータの削除、補正、分離学習などがあります。

データの型を統一

データ型の統一は文字列や数字文字列の型を統一することを言います。

たとえば、エクセルのデータで日付が「11月23日という文字列」と「2025/11/23という日付値」のような場合に日付値の型で統一することを言います。

特徴づけ、カテゴリ分け

特徴づけはさまざまなデータをカテゴリ分けすることをいいます。

たとえば、12時、14時、15時という時間は昼という特徴づけをしたり、イチゴ、オレンジ、ブドウは果物に特徴づけできます。

このように特徴づけすると、データ観察する時に傾向がわかりやすくなります。

データベースの結合・統合

データベースの結合・統合は複数のデータソースをひとつにまとめる作業です。

たとえば、「webマーケティングするためのga4のデータ」と「顧客データ」と「サポートデータ」のデータベースをひとつに統合することで、より効果的にデータ分析できます。

データの結合や統合はバラバラの点の情報を線にしてつなげるようなイメージです。

データ前処理でAIができること

Chat Gptを利用してデータ分析をする人

さきほどデータ前処理の主な作業をご紹介しましたが、データ前処理でのAIが優れている点は人では到底できないような高速処理をできることです。

膨大なデータから欠損値や外れ値を自動検出したり、欠損値から推定値にパターン学習で変換も可能です。

データの型や特徴づけもAIが高速処理できます。

データ前処理をAIに実施させることで、人は結果の解釈に集中ができます。

Chat GptやGeminiでデータ前処理をやってみましょう!

Chat GptやGeminiは膨大な言語から統計学や数学的な知識も習得しています。

それを効果的に利用することで、私たちはデータ分析ができるようになります!
それでは、どのように私たちはChat GptやGeminiを利用してデータ分析するべきかご紹介します。

CSVファイルをアップする

chat gptのファイルアップロード画面

データベースとなるCSVをChat GptやGeminiにアップロードしましょう。
Chat Gptの場合は赤枠の+ボタンからファイルをアップロードできます。

欠損値を補完する:補完するためのプロンプト一例もご紹介

いよいよ欠損値の補完に入りましょう。
補完する時に使えるプロンプト一例をご紹介します。

  • こちらのデータに欠損値がある場合は、代わりの値としてAIによる推定値を入力してください。
  • こちらのデータに欠損値がある場合は、代わりの値として平均値を入力してください。
  • こちらのデータに欠損値がある場合は、代わりの値として最頻値を入力してください。

プロンプトを入力すると、下記のように欠損値を補完できます。

Chat Gptのデータ前処理完了画面

その他のデータ前処理についても、基本的な流れは同じでCSVファイルをアップロードした後にプロンプトを入力することでAIがデータ前処理を実施します。

データ前処理の目的に適したプロンプトを入力して、データ前処理を実施しましょう。
Chat GptやGeminiでも十分に分析できますので、ぜひ活用してみてください。

こちらの記事を読んだ方にオススメの記事をご紹介

こちらの記事ではデータ分析のデータ前処理でAIを活用する方法をご紹介しましたが、当メディアを運営するAI解決.COMでは事業に役立つAI情報をご紹介しています。

気になる記事がありましたら、ぜひチェックしてみてください。

◆データ分析での人とAIの役割について知りたい方向け
データ分析でのAIの得意分野と苦手分野|AIと人の違いと強みについて

◆Chat Gpt以外の対話型AIでデータ分析する方法を知りたい方向け
AIと会話だけでデータ分析ができる!LokerのチャットAIがデータアナリスト専門家に変わる

◆非構造化データを分析できるPythonライブラリが知りたい方向け
バナー画像広告の成果を高めるためにAIでバナー広告を分析する方法!クリック率を高めるビジュアルの見つけ方