逻辑回归(Logistic Regression)
模型
Sigmoid(0~1)
代价函数:交叉熵(Cross Entropy)
推导过程
\[L(w,b) = f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))……f_{w,b}(x^n)$$
$$w^*,b^* = arg \max_{w,b}L(w,b)=arg\min_{w,b}-\ln{L(w,b)}$$
$$-\ln{L(w,b)}=\sum_n -[\hat{y}\ln{f_{w,b}(x^n)+(1-\hat {y}^n)\ln{1-f_{w,b}(x^n)}}]\]
- \(-[\hat{y}\ln{f_{w,b}(x^n)+(1-\hat {y}^n)\ln{(1-f_{w,b}(x^n)})}]\)为两个伯努利分布(两点分布)的交叉熵
意义
交叉熵越小代表两个Distribution越接近,完全相同时为0,用于逐渐逼近真实概率、评判参数的好坏
目的
通过优化,不断减小交叉熵(Cross Entropy)
为什么不使用Square Error
- 对于Square Error:在远离最优点和最优点处的变化率都相对较小
- 固定学习率:在远离最优点时,学习慢
- 自适应学习率:无法判断当前与最优点的距离,而采用了错误的学习率
优化(Optimizer)
- BP
- 使用梯度下降 \(\(w_i \leftarrow w_i - \eta\sum_n-(\hat y^n -f_{w,b}(x^n))x_i^n\)\)
区别
判别模型与生成模型(Discriminative and Generative)
\(\(P(C_1|x)=\sigma(w·x+b)\)\) 同样的模型,选择不同的函数可能有不同的结果
判别模型(Discriminative)
- 直接找到\(w\)和\(b\)
- 一般来说,更好(先验概率对生成模型的影响)
生成模型(Generative)
- 通过高斯分布,找\(\mu^1、\mu^2、\Sigma^{-1}\),\(\(\begin{array}{ll} w^T=(\mu^1-\mu^2)^T\Sigma^{-1} \\ b=-\frac{1}{2}(\mu^1)^T(\Sigma^1)^{-1}\mu^1+\frac{1}{2}(\mu^2)^T(\Sigma^2)^{-1}\mu^2+\ln{\frac{N_1}{N_2}}\\ \end{array}\)\)
多个类别分类(Multi-class Clasification)
\[\begin{array}{ll}
\mathrm{C}_{1}: w^{1}, b_{1} & z_{1}=w^{1} \cdot x+b_{1} \\
\mathrm{C}_{2}: w^{2}, b_{2} & z_{2}=w^{2} \cdot x+b_{2} \\
\mathrm{C}_{3}: w^{3}, b_{3} & z_{3}=w^{3} \cdot x+b_{3}
\end{array}\]
Softmax
- 功能:
- 归一化
- 放大差异
Logistic Regression的限制
- 方案:选择其他特征