データの分布や外れ値を視覚的に把握するために、箱ひげ図は非常に有用なツールです。
そこで、この記事では、Pythonの強力な可視化ライブラリであるMatplotlibを使って、箱ひげ図を簡単に作成する方法を初心者向けに詳しく解説します。
基本から応用まで、実際のコード例を通じて確認していきましょう。
箱ひげ図とは?
データ分析や統計学でよく使用される箱ひげ図は、データの分布や外れ値を視覚的に表現するための強力なツールです。
このグラフは、データの最小値、第一四分位数、中央値、第三四分位数、最大値、そして外れ値を示すため、データセットの全体的な概要を一目で理解するのに役立ちます。
Matplotlibとは?
Pythonのデータ可視化ライブラリであるMatplotlibは、幅広いグラフやチャートを作成するための強力なツールです。
特に箱ひげ図を簡単に作成できる機能が備わっており、データの概要を視覚的に把握する際に非常に便利です。
✓『Pythonデータサイエンスハンドブック』で基礎の確認から応用した使い方まで学ぶことができます。本記事とあわせて、ぜひ、チェックしてください。
PythonとMatplotlibで箱ひげ図を作成する手順
まずは、PythonとMatplotlibを使用して基本的な箱ひげ図を作成する方法を学びましょう。
1. 必要なライブラリのインストール
箱ひげ図を作成するためには、PythonとMatplotlibが必要です。
まだインストールしていない場合は、以下のコマンドでインストールしてください。
pip install matplotlib
2. 基本的な箱ひげ図の作成
次に、基本的な箱ひげ図を作成してみましょう。
まずは、適当なデータを用意し、そのデータに基づいて箱ひげ図を描画します。
import matplotlib.pyplot as plt # サンプルデータの作成 data = [10, 20, 20, 30, 40, 50, 50, 60, 70, 80, 90, 100] # 箱ひげ図の作成 plt.boxplot(data) # グラフの表示 plt.title('Basic Boxplot') plt.show()
上記のコードを実行すると、シンプルな箱ひげ図が表示されます。
実行結果:
この図では、データの分布が視覚的にわかりやすく示されており、中央値や四分位範囲、外れ値が確認できます。
3. 複数のデータセットを使用した箱ひげ図
次に、複数のデータセットを比較する場合の箱ひげ図の作成方法を紹介します。
import matplotlib.pyplot as plt # 複数のデータセットの作成 data1 = [10, 20, 20, 30, 40, 50, 50, 60, 70, 80, 90, 100] data2 = [15, 25, 35, 45, 55, 65, 75, 85, 95, 105] data3 = [5, 15, 25, 35, 45, 55, 65, 75, 85, 95, 105, 115] # 複数のデータセットを含む箱ひげ図の作成 plt.boxplot([data1, data2, data3], labels=['Data 1', 'Data 2', 'Data 3']) # グラフの表示 plt.title('Boxplot with Multiple Datasets') plt.show()
このコードでは、3つの異なるデータセットを比較した箱ひげ図が描画されます。
実行結果:
それぞれのデータセットがどのように分布しているか、一目で比較できるので便利です。
4. 箱ひげ図のカスタマイズ
箱ひげ図の外観をカスタマイズすることで、より見やすく効果的なグラフを作成できます。
例えば、色やスタイルを変更することで、グラフを視覚的に強調できます。
import matplotlib.pyplot as plt # サンプルデータの作成 data = [10, 20, 20, 30, 40, 50, 50, 60, 70, 80, 90, 100] # カスタマイズした箱ひげ図の作成 plt.boxplot(data, patch_artist=True, boxprops=dict(facecolor='lightblue', color='blue'), whiskerprops=dict(color='blue'), capprops=dict(color='blue'), medianprops=dict(color='red')) # グラフの表示 plt.title('Customized Boxplot') plt.show()
この例では、箱の色をライトブルーに、中央値を示す線を赤色に変更しました。
実行結果:
視覚的により印象的なグラフが作成され、データの特徴が際立ちます。
応用例:外れ値を強調する
箱ひげ図の応用として、外れ値を特に強調して表示する方法を紹介します。
import matplotlib.pyplot as plt import numpy as np # サンプルデータの作成 np.random.seed(10) data = np.random.normal(100, 20, 200) data = np.append(data, [30, 150, 200, 300]) # 外れ値を追加 # 外れ値を強調する箱ひげ図の作成 plt.boxplot(data, flierprops=dict(markerfacecolor='red', marker='o', markersize=12)) # グラフの表示 plt.title('Boxplot Highlighting Outliers') plt.show()
このコードでは、外れ値を大きな赤いマーカーで強調表示しています。
実行結果:
外れ値が目立つようになり、異常値の検出が容易になります。
関連・おすすめ書籍
まとめ
PythonとMatplotlibを使って箱ひげ図を作成する方法を詳しく解説しました。
基本的な使い方からカスタマイズ方法、応用例までをカバーし、データの分布を視覚的に理解するための手法を習得できたでしょう。
PythonとMatplotlibを活用して、より深いデータ分析を実施してみてください。
視覚化されたデータは、単に数字を眺めるよりも多くの洞察を提供してくれるはずです。
▼必見(ChatGPTを活用!おすすめAI副業)▼
今なら5000円分の特典あり!! dodgsonblog.com