スキルUPの道しるべ

本サイトはプロモーションを含みます
上に戻る

【Python】Matplotlibで箱ひげ図を簡単に作成する方法を例付きでわかりやすく解説!

データの分布や外れ値を視覚的に把握するために、箱ひげ図は非常に有用なツールです。

そこで、この記事では、Pythonの強力な可視化ライブラリであるMatplotlibを使って、箱ひげ図を簡単に作成する方法を初心者向けに詳しく解説します。

基本から応用まで、実際のコード例を通じて確認していきましょう。

箱ひげ図とは?

データ分析や統計学でよく使用される箱ひげ図は、データの分布や外れ値を視覚的に表現するための強力なツールです。

このグラフは、データの最小値、第一四分位数、中央値、第三四分位数、最大値、そして外れ値を示すため、データセットの全体的な概要を一目で理解するのに役立ちます。

Matplotlibとは?

Pythonのデータ可視化ライブラリであるMatplotlibは、幅広いグラフやチャートを作成するための強力なツールです。

特に箱ひげ図を簡単に作成できる機能が備わっており、データの概要を視覚的に把握する際に非常に便利です。

Pythonデータサイエンスハンドブック』で基礎の確認から応用した使い方まで学ぶことができます。本記事とあわせて、ぜひ、チェックしてください。

PythonとMatplotlibで箱ひげ図を作成する手順

まずは、PythonとMatplotlibを使用して基本的な箱ひげ図を作成する方法を学びましょう。

1. 必要なライブラリのインストール

箱ひげ図を作成するためには、PythonとMatplotlibが必要です。

まだインストールしていない場合は、以下のコマンドでインストールしてください。

pip install matplotlib

2. 基本的な箱ひげ図の作成

次に、基本的な箱ひげ図を作成してみましょう。

まずは、適当なデータを用意し、そのデータに基づいて箱ひげ図を描画します。

import matplotlib.pyplot as plt

# サンプルデータの作成
data = [10, 20, 20, 30, 40, 50, 50, 60, 70, 80, 90, 100]

# 箱ひげ図の作成
plt.boxplot(data)

# グラフの表示
plt.title('Basic Boxplot')
plt.show()

上記のコードを実行すると、シンプルな箱ひげ図が表示されます。

実行結果:

この図では、データの分布が視覚的にわかりやすく示されており、中央値や四分位範囲、外れ値が確認できます。

3. 複数のデータセットを使用した箱ひげ図

次に、複数のデータセットを比較する場合の箱ひげ図の作成方法を紹介します。

import matplotlib.pyplot as plt

# 複数のデータセットの作成
data1 = [10, 20, 20, 30, 40, 50, 50, 60, 70, 80, 90, 100]
data2 = [15, 25, 35, 45, 55, 65, 75, 85, 95, 105]
data3 = [5, 15, 25, 35, 45, 55, 65, 75, 85, 95, 105, 115]

# 複数のデータセットを含む箱ひげ図の作成
plt.boxplot([data1, data2, data3], labels=['Data 1', 'Data 2', 'Data 3'])

# グラフの表示
plt.title('Boxplot with Multiple Datasets')
plt.show()

このコードでは、3つの異なるデータセットを比較した箱ひげ図が描画されます。

実行結果:

それぞれのデータセットがどのように分布しているか、一目で比較できるので便利です。

4. 箱ひげ図のカスタマイズ

箱ひげ図の外観をカスタマイズすることで、より見やすく効果的なグラフを作成できます。

例えば、色やスタイルを変更することで、グラフを視覚的に強調できます。

import matplotlib.pyplot as plt

# サンプルデータの作成
data = [10, 20, 20, 30, 40, 50, 50, 60, 70, 80, 90, 100]

# カスタマイズした箱ひげ図の作成
plt.boxplot(data, patch_artist=True, boxprops=dict(facecolor='lightblue', color='blue'),
            whiskerprops=dict(color='blue'), capprops=dict(color='blue'),
            medianprops=dict(color='red'))

# グラフの表示
plt.title('Customized Boxplot')
plt.show()

この例では、箱の色をライトブルーに、中央値を示す線を赤色に変更しました。

実行結果:

視覚的により印象的なグラフが作成され、データの特徴が際立ちます。

応用例:外れ値を強調する

箱ひげ図の応用として、外れ値を特に強調して表示する方法を紹介します。

import matplotlib.pyplot as plt
import numpy as np

# サンプルデータの作成
np.random.seed(10)
data = np.random.normal(100, 20, 200)
data = np.append(data, [30, 150, 200, 300])  # 外れ値を追加

# 外れ値を強調する箱ひげ図の作成
plt.boxplot(data, flierprops=dict(markerfacecolor='red', marker='o', markersize=12))

# グラフの表示
plt.title('Boxplot Highlighting Outliers')
plt.show()

このコードでは、外れ値を大きな赤いマーカーで強調表示しています。

実行結果:

外れ値が目立つようになり、異常値の検出が容易になります。

関連・おすすめ書籍

まとめ

PythonとMatplotlibを使って箱ひげ図を作成する方法を詳しく解説しました。

基本的な使い方からカスタマイズ方法、応用例までをカバーし、データの分布を視覚的に理解するための手法を習得できたでしょう。

PythonとMatplotlibを活用して、より深いデータ分析を実施してみてください。

視覚化されたデータは、単に数字を眺めるよりも多くの洞察を提供してくれるはずです。

▼必見(ChatGPTを活用!おすすめAI副業)▼

今なら5000円分の特典あり!! dodgsonblog.com