DSP

展示广告中冷启动问题的图像特征学习

2019-07-13 16:58发布

展示广告中冷启动问题的图像特征学习 论文名称:Image Feature Learning for Cold Start Problem in Display Advertising

摘要

在在线展示广告中,最新的CTR预估算法严重依赖于历史信息,对于没有任何历史信息的新广告效果是很差的。这就是冷启动问题。对于图像广告,现有最新的系统使用人工制作的图像特征如多媒体信息和SIFT来获取广告本身具有的吸引力部分。然而,这些人工制作的特征都是非常依赖于当前任务、不灵活、并且是启发式的。为了处理图像展示广告中的冷启动问题,我们提出了一种新的特征学习结构来直接在目标任务重从原始像素和用户反馈中学习到具有辨识度的图像特征。提出的这个方法是非常灵活的并且不依赖于人的启发性。在含有470亿记录的现实世界数据集上进行大量的实验显示了我们的特征学习方法明显优于现有的人工制作的特征方法,并且能够提取有辨识度和有意义的特征。

1 引言

在线广告是一项快速增长的数十亿美元的业务,大量IT公司如谷歌、腾讯和百度都从在线广告中获得大量收益。由于越来越多人更爱网上购物,为了对网上用户展示他们的广告的广告主也大量增长。图像广告因其简洁、直观鹗易于理解而具有巨大的优势。在本文中,我们专注于展示广告中的图像广告。
精准预估广告选择的CTR是广告网络中的核心任务。当一个用户点击广告时,广告主支付给广告网络,所以最有吸引力的广告展示给用于不仅仅增加了收入,而且提升了用户体验。最好的点击预估算法严重依赖于历史信息,比如历史的CTR,广告ID和广告的种类。由于成熟而稳定的广告的CTR变化不大,这些算法在老广告上效果很好,然而,没有充足的历史信息的情况下,他们不适合于新广告的CTR预估。
新广告是非常重要的。在快速变化的市场中,用户很容易对就广告产生视觉疲劳感,所以广告主需要频繁的更新他们的广告,因此,大多广告的预期寿命都很短。除此之外,越来越多的新的广告主希望通过广告网络来展示他们的广告。在这种情况下, 新广告展所有广告的非常大的一部分。如果点击预测系统对新广告的关注不够,就不能积累新广告上新用户的反馈,最后会进入自毁循环中。
为了解决新图像广告中的冷启动问题,现有预测系统使用图像特征来识别具有相似特征的广告,从而预测新广告图像的CTR。由于隐私问题,一些广告系统不允许使用用户的个人信息,在本文中,我们专注于学习广告中更好的图像特征,并且对于未来的讨论,我们离开图像广告的个性化用户口味。
现有图像特征在图像展示广告中的使用大多为人工设计的特征,他们从不同的角度如亮度、颜 {MOD}、清晰度、模糊、细粒度、第三准则、简单性、视觉权重、动态、 {MOD}彩情感来设计。其他的一些人工制作的特征专门为目标识别任务来设计,如SIFT特征。然而,这些人工制作的特征在图像广告中应用的效果并不好。首先,他们不适合点击预估任务,这些视觉特征都不是为了点击预估任务来专门设计的,他们都是具有有限表达能力的低维特征,极少数能精准捕捉到影响点击预估任务的关键因子。第二,他们不够灵活,由于任务的不同,影响点击动作的关键因子也会随着时间而改变。就拿迷你裙来说,吸引人的关键因子可能是1990年代的潮流 {MOD}彩,但是之后变成了复杂的图像或者不受颜 {MOD}特征影响的更加时尚的设计。更糟糕的是,新的人工制作的特征严重依赖于人的启发性,因此,他们很难设计,容易出错,可能还是不完整的。
为了解决快速演变的图像展示广告中的冷启动问题,我们提出了从在线广告中来学习图像特征的方法。我们提出了一个新的特征学习结构来直接从原始像素和目标任务重的用户反馈学习最具有判别性的图像特征。提出的方法非常灵活并且不依赖于人的启发性思维。在图像特征不再有效的情况下,我们只需要用最新的数据集重新训练我们的特征学习模型即可。在含有470亿记录的现实世界数据集上进行试验表明我们的特征学习方法明显由于人工制作的特征,并且能够提取有辨识度和有意义的特征。
这篇论文的贡献在下面三个方面:
1. 我们提出了有监督的提取图像特征的方法来针对在线广告中的新的图像展示广告的冷启动问题,据我们所知,这是第一个在在线图像广告中学习人工制作的广告的图像特征的论文。
2. 对于提取人工制作的广告图像特征,我们提出了一个新的特征学习框架,我们提出的模型直接从原始像素和用户反馈中学习到最具有辨识度的图像特征,并且其不依赖于人的启发性思维。我们和几个最好的人工制作特征的方法在一个含有超过470亿记录的大型工业数据集上进行比较,我们的方法明显优于baselines。
3. 通过相关性分析和可视化,我们深入了解我们的模型,并且证明了我们的模型能够发现有辨识度和有意义的特征。
本文组织如下,在第二节,我们描述了一些相关工作,第三节,我们公式化点击预估问题,在第四节,我们展示了我们的网络结构,我们在第五节中展示了我们的实验结果,并且在第六节中总结了我们的工作。

2 相关工作

在线广告的点击预估时在线广告网络公司的核心业务,并且也引起了科研节的广泛关注。“Contextual advertising by combining relevance with click feedback.”提出使用上下文文本信息和点击反馈数据来提升预估系统。“Personalized click prediction in sponsored search”和“A maximum entropy approach to natural language processing”在预估系统上使用LR模型。“Learning the click-through rate for rare/new ads from similar ads.”在点击预估系统中使用决策树。
为了预测新广告的CTR,许多工作在不同方面针对冷启动问题展开。“Contextual advertising by combining relevance with click feedback.”使用上下文信息,而“Learning the click-through rate for rare/new ads from similar ads.”使用语义相关的广告,“Estimating rates of rare events with multiple hierarchies through scalable log-linear models.”在广告种类之间使用现有启发式信息来帮助预测新广告的CTR,然而,这些方法不能直接应用于图像展示广告上。在缺乏一个广告的类别的足够信息的情况下,我们不得不依赖于图像特征。由于隐私原因,一些广告系统没有权限从用户身上获得私人信息,并且用户特征不影响项目中不同图像特征的比较。在本文中,我们聚焦于从广告方面设计更好的通用图像特征来处理新图像广告中的冷启动问题。
大量有效的人工制作的图像热症已经对于不同的任务设计出来了。“Visual information retrieval system via content-based approach”使用大量的图像特征来构建一个基于图像检索系统(CBIR)的内容,”Object recognition from local scale- invariant features”对于通用目标识别任务提出了SIFT特征,但是这些人工制作的特征不能直接应用在展示广告任务中,“Multimedia features for click prediction of new ads in display advertising.”和“The impact of visual appearance on user response in online display advertising”提出使用多媒体特征来预测展示广告中的广告的预估概率。他们利用大量图像特征包含亮度、颜 {MOD}、对比度、清晰度、纹理、感兴趣点、显著图等,并且他们明显提升了最好的方法。然而,这些特征主要是固定的人工制作的特征,这些人工制作的特征并不是专门为点击预估模型设计,他们几乎不能捕捉到这项任务的关键因子,并且他们不够灵活。在快速变化的世界中,影响CTR的重要因素也要是演变很快的,固定的手工设计特征对于适应新的展示广告不够灵活,更糟糕的是,他们严重依赖于人类启发式,这是很容易出错并且难以设计的。
特征学习旨在从原始输入中学习到一个特征提取器,比如提取到的特征针对特定任务是非常有效的。卷积神经网络是其中一个最受欢迎的特征学习结构,其能通过学习滤波器来生成一个潜在特征的层次结构。“Imagenet classification with deep convolutional neural networks.”在超过一百万的图像数据集上使用卷积神经网络在图像分类任务上获得了最好的结果。“Visualizing and understanding convolutional neural networks.”发现高维神经元能够学习有趣和直观的高维图案,然而,现有特征学习论文主要集中于自然图像分类。据我们所知,在展示广告的点击预估任务中,仍然还没有工作在特征学习上,此外,现有的特征学习结构可能不适合点击预估问题。

3 点击预估问题公式化

在展示广告中,广告网络对一个在线用户拍卖每个展示广告的机会,有着高CPM的广告得到展示机会。所以预测一个用户点击广告的概率是广告网络的核心任务。
在线广告中的点击预估能够被公式化为一个分类问题。每个实例都是一个特定上下文展示给特定用户,然后产生用户在广告中的反馈的次数。第j个实例可以公式化为Ij={fj,cj}" role="presentation" style="position: relative;">Ij={fj,cj},其中fj" role="presentation" style="position: relative;">fj是特征的集合,cj" role="presentation" style="position: relative;">cj是这个实例的标签,fj={uj,pj,aj}" role="presentation" style="position: relative;">fj={uj,pj,aj},其中uj" role="presentation" style="position: relative;">uj是用户侧特征集,pj" role="presentation" style="position: relative;">pj是上下文特征集合,aj" role="presentation" style="position: relative;">aj是广告侧特征集合。类别标签cj{0,1}" role="presentation" style="position: relative;">cj{0,1}由用户的反馈决定,0是没有点击,1是点击。我们使用D={fj,cj}j=1n" role="presentation" style="position: relative;">D={fj,cj}j=1n来代表含有n个实例的训练集,使用T={fj,cj}j=1m" role="presentation" style="position: relative;">T={fj,cj}j=1m来表示含有m个实例的测试集。我们的目标是估计点击p(cj|f(j))" role="presentation" style="position: relative;">p(cj|f(j))的概率。由于隐私问题,一些推荐系统没有用户信息,用户特征不影响项目侧上不用图像特征的比较。在本文中,我们聚焦于从广告侧中设计更好的通用图像特征aj" role="presentation" style="position: relative;">aj,我们讨论局限于uj=" role="presentation" style="position: relative;">uj=并且pj" role="presentation" style="position: relative;">pj=空集的情况。
我们选择使用LR来构建我们的预估模型,LR模型广泛使用在点击预估问题中,它简单易懂,并且能处理大量不同的特征,这个训练过程可以很容易扩展到非常大的规模“Parallelized stochastic gradient descent. In Advances in Neural Information Processing Systems,”,“Parallel coordinate descent for l1- regularized loss minimization.”。
我们预测一个实例的类别标签通过p(cj|fj,w)=G(i=1dwifji)" role="presentation" style="position: relative;">