我看到的在线广告解决方案演化-广告数据分析基础
2019-07-13 20:52发布
生成海报
3.广告数据分析基础
既然DSP平台产生大量数据,这些数据我们希望得到分析结果或者预测趋势,使这些数据变得更有价值,更能服务在线广告业务,例如构建自有的DMP。
3.1 整合实时和异步计算思考
3.1.1 整体设计
我们对于广告行业的计算任务进行分类,有两种可能使用:
第一类型就是流处理的模式,例如侦测可疑的广告请求,我的想法设定一个侦测模式,在DSP接入处放置这种侦测,通过实时引擎发现有问题的广告请求。对这种业务,可能希望在1分钟内发出warning,这种数据放在内存计算就可以了,速度是关键,而且不用太考虑持久化的问题。
第二类型就是异步批处理,例如业务要求获得每天各个地区的点击分布情况,这种业务特点就是延迟可能在2小时到1天左右,通过读取存储异步运行,像Hadoop这种计算框架比较适合这类型的业务。
View可以看成用户关注的视角,批处理的view和实时view可以合并成一种整合的view提供给最终用户或者用户程序使用。
3.2计算管理过程
3.2.1.业务组件
针对与Hadoop的计算使用,我们设计了几个组件:Computation Controller, Computation Executor, Observation window和待接入现有的计算框架Hadooop,Spark等等.
Computation Controller作为一个指令发布的控制台,它发出计算或者传出信号,由Computation Executor来准备就绪,并且通知计算框架时行计算.
Observation Window负责把最终的结果传送到一些存储里,如cache或者mysql,然后用户程序会读取这些计算的结果
3.3 接入Hadoop的开发结果
3.3.1 Hadoop接入
在这里提到一下,我们没有直接使用Hadoop来进行计算,而是使用基于Pig作为执行语言,在上面包装一层中间的计算业务逻辑表达式,在运行时进行翻译,在系统内部就称之为Pig+表达式。
打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮