• 回复
  • 收藏

【嘉银技术】机器学习流程

运营技术4867   社区管理 楼主 2019-4-12 14:55:16 显示全部楼层 来自:上海
机器学习流程



作者(花名):皮皮虾
部门:技术中心
机器学习生命周期
       机器学习生命周期包括五个部分, 每一个部分都很重要。

1.定义目标:
       比如以营销场景为例, 比方说,我们现在要营销100w个借款用户, 但是转化率却只有1%(1w个人转化)。 那么其余的营销部分就构成了额外的成本。 但是如果我们能够借助AI+大数据将这部分客群缩小, 但是同时又能够保证覆盖真正会转化的那部分人群, 那么我们就能够节省运营成本。

2.数据收集和分析:
       好, 那么我们的目标已经明确了, 接下来我们需要收集和分析数据(大数据平台), 这个过程我们需要和业务人员沟通, 去发现哪些变量是我们需要的, 可能对最后的预测产生影响, 然后把这些数据从不同的数据源收集起来, 做成一张统一的表格。

3.训练模型:
数据准备好之后,我们要开始进入建模流程了(AI 平台)。这部分的工作包括:
a. 设置那部分变量作为特征变量, 以及哪一个作为目标变量
b. 特征工程(把变量变成机器可以识别的类型)
c. 将数据集分为训练,验证和测试集
d. 选择合适的算法, 比如逻辑回归,梯度提升树, 以及合适的参数。 借助训练数据集来训练模型,验证数据集来判断模型是否过拟合
e. 最后在测试集上验证效果

4.解释模型:
       当我们得到一个模型之后, 我们需要说服业务部门去使用我们的模型, 那么我们需要解释我们的模型。
这里的解释包含两层意思:
a.我们模型的效果, 也就是通过在测试数据集上的表现, 通过科学的描述方式(ROC, AUC指标)来说明我们的模型好坏。
b. 模型内部特征的可解释性, 也就是说我们的这个模型, 它到底为什么认为这部分人群更加容易起转化, 它是否分析到了什么特征, 那么这些特征能够被解释。 很遗憾, 现在的很多算法都是黑盒模型(比如神经网络算法), 当然也有些算法可以做一部分解释, 比如梯度提升树。

5.部署和维护:
       模型的部署包括了影子模型, A/B测试, 冠军模型等步骤 , 所以上线的流程并不是一蹴而就。 而且初版模型上线之后,可能需要持续的更新, 这时闭环系统就显得尤为重要。


参与人数 3宝石 +3 收起 理由
独行者 + 1 感谢分享!
美人鱼爱洗澡 + 1
飒爽 + 1

查看全部评分总评分 : 宝石 +3

回复

使用道具 举报

大神点评(85)

知足悠然   活跃之星 2019-4-12 14:59:11 显示全部楼层 来自:福建宁德
搞不懂。
回复 支持

使用道具 举报

蓝翔   世界首富 2019-4-12 14:59:22 显示全部楼层 来自:陕西西安
科技进步
参与人数 1金币 +2 收起 理由
小财神 + 2 解决零回复,赞一个!

查看全部评分总评分 : 金币 +2

回复 支持

使用道具 举报

nwdezennt   世界首富 2019-4-12 15:00:35 显示全部楼层 来自:山东
技术核心
回复 支持

使用道具 举报

一百万的主人   活跃之星 2019-4-12 15:04:21 来自手机   显示全部楼层 来自:福建泉州
没看清说啥
回复 支持

使用道具 举报

nwdyepq9w   超级富豪 2019-4-12 15:06:07 来自手机   显示全部楼层 来自:河南开封
看不懂,平台用心良苦啊
回复 支持

使用道具 举报

风之语   金融寡头 2019-4-12 15:06:48 显示全部楼层 来自:上海
显得尤为重要。
回复 支持

使用道具 举报

冰山   金融寡头 2019-4-12 15:09:08 来自手机   显示全部楼层 来自:安徽阜阳
不太清楚
回复 支持

使用道具 举报

飞天   发帖之星 2019-4-12 15:09:17 来自手机   显示全部楼层 来自:江苏
努力吧,好好学习天天向上!
回复 支持

使用道具 举报

飘落的枫叶   世界首富 2019-4-12 15:11:03 显示全部楼层 来自:上海
学不完。
回复 支持

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版奖励规则

HOT • 推荐

关注0

粉丝21

帖子155