線形回帰とロジスティック回帰の違いとは?
線形回帰とロジスティック回帰は、履歴データを分析して予測を行う機械学習手法です。例えば、過去の顧客の購買傾向を調べることで、回帰分析は将来の売上を推定するため、より多くの情報に基づいた在庫購入を行うことができます。線形回帰手法では、複数の既知の因子に対して未知の因子を数学的にモデル化し、未知の値を正確に推定します。同様に、ロジスティック回帰では数学を使用して 2 つのデータ要素間の関係を調べます。その後、この関係を使用して、一方の因子の値を他方の因子に基づいて予測します。通常、予測の結果の数は有限です (「はい」や「いいえ」など)。
予測を行う: 線形回帰とロジスティック回帰
線形回帰とロジスティック回帰はどちらも、数学的モデリングを使用して 1 つ以上の入力変数から出力変数の値を予測します。出力変数は従属変数で、入力変数は独立変数です。
線形回帰
各独立変数は従属変数と直接関係があり、他の独立変数とは関係がありません。この関係は直線関係と呼ばれます。従属変数は通常、連続値の範囲からの値です。
線形回帰モデルを作成するための式、つまり線形関数は次のとおりです。
y= β0 + β1X1 + β2X2+… βnXn+ ε
各変数の意味は次のとおりです。
- y は、予測される従属変数
- β0 は、すべての独立入力変数が 0 に等しい場合の y 切片
- β1X1 は、最初の独立変数 (X1) の回帰係数 (B1) で、最初の独立変数が従属変数に与える影響値
- βnXn は、入力値が複数ある場合の最後の独立変数 (XN) の回帰係数 (BN)
- ε は、モデル誤差
線形回帰の例としては、部屋数、近隣、築年数 (独立変数) に基づいて住宅価格 (従属変数) を予測することが挙げられます。
ロジスティック回帰
従属変数の値は、二項分類を使用する有限カテゴリのリストの 1 つです。これらはカテゴリ変数と呼ばれます。例としては、6 面のサイコロを振った結果があります。この関係はロジスティック関係と呼ばれます。
ロジスティック回帰の公式は、特定のカテゴリ変数の成功または失敗の確率にロジット変換、つまりオッズの自然対数を適用します。
y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))
各変数の意味は次のとおりです。
- y は、y カテゴリ変数の成功確率
- e (x) は、オイラー数、つまり自然対数関数またはシグモイド関数 ln (x) の逆数
- Β0, β1X1…βnXn は、前のセクションで説明した線形回帰と同じ意味
ロジスティック回帰の例としては、部屋数、近隣、築年数 (独立変数) に基づいて、住宅価格が 500,000 USD (従属変数) を超える可能性を予測することが挙げられます。
線形回帰とロジスティック回帰にはどのような類似点がありますか?
線形回帰とロジスティック回帰にはいくつかの共通点があり、応用空間も同じように多岐にわたります。
統計分析
ロジスティック回帰と線形回帰はどちらも統計分析またはデータ分析の形式であり、データサイエンスの分野に分類されます。どちらも数学的モデリングを使用して、独立変数または既知の変数のセットを従属変数に関連付けます。ロジスティック回帰と線形回帰の両方を数式として表すことができます。モデルをグラフで表すこともできます。
機械学習テクニック
教師あり機械学習では、線形回帰モデルとロジスティック回帰モデルの両方が使用されています。
教師あり機械学習では、ラベル付けされたデータセットを入力してモデルのトレーニングを呼び出します。従属変数と独立変数は既知のものであり、人間の研究者がまとめあげています。既知の履歴データを入力することにより、数学的方程式はリバースエンジニアリングされます。最終的には、既知の独立変数から未知の従属変数を計算するための予測が正確になります。
教師あり学習は、データにラベルが付いていない教師なし学習とは異なります。
トレーニングの難易度
ロジスティック回帰と線形回帰はどちらも、モデルの予測を正確にするために大量のラベル付きデータを必要とします。これは人間にとって骨の折れる作業です。例えば、画像に車が含まれているかどうかをラベル付けする場合、すべての画像に車のサイズ、写真の角度、障害物などの変数のタグが必要です。
限られた予測精度
入力データを出力データに適合させる統計モデルは、必ずしも従属変数と独立変数の間の因果関係を意味するわけではありません。ロジスティック回帰でも線形回帰でも、相関関係は因果関係ではありません。
前のセクションの住宅料金の例を使います。住宅所有者の名前が独立変数のリストに加わるとします。それから、John Doe という名前は住宅販売価格の低下と相関関係があります。所有者の名前が John Doe の場合、線形回帰とロジスティック回帰では常に住宅価格の低下が予測されますが、論理的には、この入力データとの関係は正しくありません。
主な相違点: 線形回帰とロジスティック回帰
ロジスティック回帰と線形回帰は、数学的なアプローチの点で最も異なります。
出力値
線形回帰出力は連続値スケールです。例えば、これには数値、走行距離、料金、重量が含まれます。
一方、ロジスティック回帰モデルの出力値は、固定カテゴリ事象が発生する確率です。例えば、0.76 は青いシャツを着る確率が 76% であることを意味し、0.22 は賛成票を投じる確率が 22% であることを意味する場合があります。
変数関係
回帰分析では、回帰線は各独立変数と従属変数の関係を表すグラフ線の形です。
線形回帰では、回帰線は直線です。独立変数への変更は、従属変数に直接影響します。
ロジスティック回帰では、回帰線は S 字形の曲線で、シグモイド曲線とも呼ばれます。
数学的分布タイプ
線形回帰は、従属変数の正規分布またはガウス分布に従います。正規分布は、グラフ上の連続線で表されます。
ロジスティック回帰は二項分布に従います。二項分布は通常、棒グラフとして表されます。
いつ使うべきか: ロジスティック回帰と線形回帰
線形回帰は、値のスケールから連続従属変数を予測する場合に使用できます。ロジスティック回帰は、バイナリの結果 (例えば「はい」または「いいえ」) が予想される場合に使用します。
線形回帰の例は次のとおりです。
- 母親と父親の身長に基づいて成人の身長を予測する
- 料金、時期、店舗の場所に基づいてカボチャの販売量を予測する
- 出発地、目的地、時期、航空会社に基づいて航空券の料金を予測する
- 投稿者、オーガニックフォロワー数、投稿の内容、投稿された時間帯に基づいて、ソーシャルメディアの「いいね」の数を予測する
ロジスティック回帰の例は次のとおりです。
- BMI、喫煙状況、遺伝的素因に基づいて心臓病にかかるかどうかを予測する
- 色、サイズ、種類、料金に基づいて、どの小売衣料品が最も人気があるかを予測する
- 賃金、出社日数、会議数、送信したメールの数、チーム、在職期間に基づいて、その年に従業員が退職するかどうかを予測する
- 前年の売上、在職期間、およびコミッション率に基づいて、どの営業チームメンバーが年間 100 万 USD を超える契約を結ぶかを予測する
相違点の要約: 線形回帰とロジスティック回帰
線形回帰 |
ロジスティック回帰 |
|
内容 |
一連の入力値から出力値を予測する統計的手法。 |
一連のカテゴリ変数から、出力値が特定のカテゴリに属する確率を予測する統計的手法。 |
関係 |
直線で表される線形関係。 |
S 字形の曲線で表されるロジスティック関係または S 字形関係。 |
方程式 |
線形。 |
対数。 |
教師あり学習のタイプ |
回帰。 |
分類。 |
分布タイプ |
正規/ガウス。 |
二項。 |
こんな方に最適 |
スケールから予測される連続従属変数を必要とするタスク。 |
固定されたカテゴリのセットからカテゴリ従属変数が発生する可能性を予測する必要があるタスク。 |
AWS で線形回帰分析とロジスティック回帰分析を実行するにはどうすればよいですか?
Amazon SageMaker を使用して、Amazon Web Services (AWS) で線形回帰分析とロジスティック回帰分析を実行できます。
統計ソフトウェアパッケージにはいくつかの種類がありますが、SageMaker は、線形回帰とロジスティック回帰の両方の回帰アルゴリズムが組み込まれているフルマネージド型の機械学習サービスです。必要な数の入力値を使用して線形回帰を実装したり、ロジスティック確率モデルを使用して回帰問題を解決したりできます。
例えば、SageMaker を使用すると次のようなメリットが得られます。
- 回帰モデルを迅速に準備、構築、トレーニング、デプロイする
- 線形回帰およびロジスティック回帰プロセスの各ステップから手間のかかる作業を取り除き、高品質の回帰モデルを開発する
- 回帰分析に必要なすべてのコンポーネントを単一のツールセットで利用できるため、モデルをより速く、より簡単に、より手頃な料金で本稼働させることができる
今すぐアカウントを作成して、AWS での回帰分析を始めましょう。