分类问题无论在现实,还是商业中都是非常常见的问题,具有非常广泛的应用场景,Logistic分类作为作为一种简单有效的有监督分类模型,一般都被视为一个基础模型,虽然简单但往往也能取得令人满意的效果,今天就从理论,实践流程和模型评价三个方面为大家简单介绍一下Logistic分类模型。
现实以及商业中的分类问题
- 用户广告点击行为预测
- 基于文本内容的垃圾短信识别
- O2O优惠券使用预测
- 基于运营商数据的个人征信评估
- P2P网络借贷平台的经营风险量化分析
- 微额借款用户人品预测
- 图片识别
- 客户流失率预测
解决分类问题的机器学习模型
- 线性分类器(Logistic分类器, SoftMax分类器)
- 支持向量机(分类)
- 朴素贝叶斯
- K近邻(分类)
- 决策树
- 集成模型(分类)
Logistic分类器—理论介绍
自变量的线性组合得到Z值,然后再利用sigmod函数将其转化为[0,1]之间的概率值,即可得到样本分别属于0和1的概率。
理论介绍1
理论介绍2
Logistic回归模型参数估计
Logistic回归模型参数估计就是通过已知样本估计表达式中的w和b值,这里采用极大似然估计来估计。简单理解极大似然估计,就是说样本当前的情况既然出现了,那么它就应该是最可能的情况,也就是说所有样本同时发生的概率应该是最大的,据此可以得到相应的似然函数,取log得到对数似然函数。
参数估计
Logistic回归模型参数学习
当样本数据较多参数量较大时,往往是难以采用精确计算的解析方法直接求解出参数值的,因此一般采用快速估计的数值优化方法,也就是我们所说的机器学习方法、、
参数学习
Logistic分类模型实践
机器学习模型的实践流程一般可以分为以下三步:
- 数据描述
- 特征工程
- 模型建立
数据描述(以Pandas-DataFrame为例)
- data.head() #数据初看
- data.info() #数据的基本统计信息/完整性/理解数据
- data.describe() #数据的描述性统计信息
- 数据可视化
特征工程
- 数据类型
(1)名义(Nominal):无序列别变量,比如乘客性别:男/女
(2)有序(Ordinal):有序类别变量,比如乘客划分为:低/中/高
(3)度量(Scale):连续性变量,比如年龄
- 特征分析和处理
(1)名义变量: One-Hot编码
(2)有序变量:按照因变量影响由小到大的顺序编码为1,2,3,…
(3)缺失值填充
- 特征选择
模型建立(以Sklearn为例)
- 数据标准化
使得预测结果不会被某些维度中过大的特征值而主导
- 训练模型参数
fit( )函数/模块
- 对测试集数据进行预测
(1)predict( )函数/模块
(2)predict_proba ( )函数/模块
Logistic分类器—性能评估
Logistic分类模型的评价方式一般有两种,混淆矩阵和ROC曲线。
- 混淆矩阵
混淆矩阵
- ROC曲线
ROC曲线1
本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/297146.html
如有侵犯您的合法权益请发邮件951076433@qq.com联系删除