HI,下午好,新媒云不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

从业务系统或日志系统进行数据提取

2019-05-18

模型部署

将验证有效的模型应用于商业环境,并监控与维护模型,实时跟踪模型效果,验证商业目标达成情况,总结报告,积累经验。

2. 常规建模流程

从业务系统或日志系统进行数据提取,数据预处理,特征工程,模型训练和调优,预测和评估,如下图所示。我们还是以心脏病的数据为例:我们从系统中导出历史数据作为训练数据,因为医疗数据很多都已经有标签的,无需再次打标,后面会讲解数据没有标签如何处理。

拿到数据后,第一步,进行预处理。处理缺失值和异常值问题,缺失值很容易理解,就是给那些没数据特征填一个数值,简单方法可以填充固定值(如-999),平均值,众数或中位数等,复杂的方法可以利用XXX,填充相似数据特征的缺失值。

异常值是指将一些不靠谱的值提出,比如年龄数据,理论上是0-120,当年龄字段出现309时我们就需要将其调整到正常范围,简单的方法可以将其调整到上限,众数或中位数等。

第二步,进行特征工程,因为算法模型本质就是数学,所以要把类别特征转换成数值,比如原始数据中性别那一列中是男,女,那么我们就需要将其变成数值0,1,其中0代表男,1代表女。

one-hot特征编码也是一种常见的处理特征的方法,如一个特征包含0,1,2三个数值,那么可以一特征拆成三个,分别用0,0,1代表0,用0,1,0代表1,用户1,0,0代表2,也就是把不同的类别特征都用0和1去表示,还有很多其他方式,如结合业务规则构建特征,特征多项式交叉相乘,PCA降维等。

特征工程可以说是建模过程中最耗时的部分,算法工程师实际建模工作中将会有80-90%的时间花在特征工程阶段。

第三步,模型训练和调参。也就是将完成预处理和特征工程的数据接入模型,找到相对最优的模型参数,并基于训练数据训练处最优模型。

第四步,模型预测和评估。使用训练好的模型跑验证数据,查看预测效果,并根据模型效果继续调参,经过更多轮循环找到最有模型参数。

第五步,模型应用和效果评估。使用历史数据完成模型训练和调优后我们需要应用到真实业务中,通过A/B测试查看模型的真实效果。

第六步,模型优化,随着业务拓展和环境变化,可能产生新的特征,所以模型要进行持续调优。

相关推荐