谈到计算广告,或者个性化推荐,甚至是一般的互联网产品,无论是运营、产品还是技术,最受关注的指标就是点击率。还有业内经常流传的故事,某位科学家通过建立更好的点击率预测模型,为公司带来了数亿的增量收入。为什么要用复杂的数学模型来描述点击率这样简单直接的统计数据呢?这样的模型是如何建立和评价的?北京网站设计公司推来客将在本期谈到这个问题。那么什么是点击率模型呢?
在计算机科学中,点击模型(Click Model)是对用户点击行为的建模。基于用户的历史点击信息,对用户的兴趣和行为进行建模,预测用户未来的点击行为,提高相关性。
在搜索引擎中,点击模型是指对用户的历史点击文档进行建模,以预测文档的相关性。
网页SEO搜索排名传统上是基于人为设计的排名函数,如BM25等。近年来,排序学习的引入大大降低了融合大量特征的复杂性。但是由于排序学习是有监督学习,需要大量的人工标注者对文档进行标注,需要大量的人工成本。建站网页的相关性会随着网页内容的更新而变化,尤其是时效性强的新闻网页。使所有手动标记保持最新是不可行的。
用户点击日志记录了用户对搜索结果满意度的重要信息,可以提供具有很高相关预测价值的信息。与人工标注相比,获取点击的成本更低,而且点击始终反映最新的相关性。一、为什么要建立一个点击率模型?
无论是人工操作还是机器决策,我们都希望对一个广告或内容可能的点击率有一个预测,从而判断哪些项目应该放在更重要的位置。这件事看起来并不难。比如我有十篇内容,历史显示的点击率都不一样。那么我只需要根据历史点击率的统计数据来做决定就可以了。好像没什么难度。
不过,鸡蛋。直接统计历史点击率的方法虽然简单易操作,但是会遇到一个非常棘手的问题。首先大家要树立一个观念:抛开地点、时间等一系列环境因素,点击率的绝对高低意义不大。比如下面这个广告,放在图片的两个位置,统计前者的点击率为2%,后者的点击率为1%。哪个广告更好?其实我们无法得出任何结论。
于是,聪明运营想了个办法,我干脆统计了不同位置的点击率,然后分别排序。这个思路在原理上是无懈可击的,相当于直接求解联合分布;但其实用价值不高:大部分广告或内容项的数据太小,例如100次展示。产生了一次点击,难道这就是1%点击率的结论吗?
那能不能换个思路,找出一些影响点击率的关键因素,分别统计这些因素呢?这其实已经产生了“特征”的建模思路。比如广告位是一个因素,广告本身是一个因素,用户的性别是一个因素。从数据充分性的角度,对每个因素分别计算点击率是可行的。但是这又产生了一个新的问题:我知道男性用户的平均点击率,广告位S的平均点击率,广告A的平均点击率,那么如何评价广告A男性用户在广告位S 上看到的点击率呢?直观的方法是求上述三个点击率的几何平均数。但这里有一个隐含的假设:这三个因素是相互独立的。但是,当有很多特征时,这种独立性假设很难保证。
特征之间的独立性往往对我们的结论有很大的影响。比如中国癌症发病率上升是“中国”因素造成的?还是因为“平均寿命”的因素?显然,这两个因素有些相关,因此简单的单独统计往往是行不通的。
那么该怎么办?这就需要统计学家和计算机科学家建立一个综合考虑各种特征并根据历史数据进行调整的点击率模型。问题,它必须能够在大量数据上自动训练和优化。这就是点击率模型的意义所在,它是互联网+和大数据时代伟大、光荣、正确、重要的工作,具有重大的实用价值和战略意义。那人说,有必要抬那么高吗?当然有必要!因为我对这门手艺也是粗略的了解,所以不知如何是好。二、怎样建立一个点击率模型?
这个问题比较简单,就不展开讨论了。 (想骂人的读者请保持冷静,继续往下看。)三、如何评估一个点击率模型?
评估点击率模型的好坏,有各种定性的或定量的、线上的或线下的方法。但是不论什么样的评测方法,其本质都是一样,就是要看这个模型区别被点击的展示与没被点击的展示之间的区别。当然,如果能找到一个离线可以计算的量化指标,是再好不过了。
这样的指标是有一个,就是如下图所示的ROC曲线下的面积,术语上称为AUC。(关于ROC和AUC的详细介绍,请大家参考《计算广告》第*章。)AUC这个数值越大,对应的模型区别能力就越强。
好了,为了让大家深入理解点击率模型评测的关键,我们要谈到一个常见的口水仗:有一天,有两位工程师在闲谈,一位叫小优,一位叫小度。他们分别负责某视频网站和某网盟广告的点击率建模。小优说:最近可把我忙坏了,上线了个全新的点击率模型,把AUC从0.62提高到0.67,效果真不错!哪知道小度听了哈哈大笑:这数据你也好意思拿出来说,我们的AUC早就到0.9以上了!
那么,是不是小度的模型比小优真的好那么多呢?当然不是,我们看看该视频网站和网盟的广告位分布,就一目了然了。
什么?你还没有明白,那么我建议你自己好好把这个问题想清楚。不论你是运营还是产品,经过了这样的思考,你的数据解读能力会上一个台阶。
好了,三个关键点说完了,我知道有的读者还会对第二点表示没看懂,那干脆我们就再多说一点儿,将2015年11月15日王超在计算广告读者微信群里所做的题为“点击率预估趋势浅析”的分享内容整理发布在下面。没有坚持到这里就把文章关掉的码农们,让他们后悔一辈子去吧!
今天分享一下点击率预估近年来的一些趋势。主要结合刘鹏老师的一些指导,以及自身工作的一些经验,有偏颇的地方请大家多多指正。
在计算广告第一版的书里,主要讲到了经典的点击率预估模型逻辑回归,特征工程,模型的评估等,相信对大多数场景来说这一步是必做的基线版本。后续可以在此基础上做一些更细致的特征工程和模型工作。考虑到群里的朋友都已经拿到了这本书,今天先跳过书里覆盖的内容,讲一些目前书里没有提及的部分。如果对书里内容还不够了解的朋友,建议第一步还是把书中基础性的内容仔细掌握。
我们专注高端建站,小程序开发、软件系统定制开发、BUG修复、物联网开发、各类API接口对接开发等。十余年开发经验,每一个项目承诺做到满意为止,多一次对比,一定让您多一份收获!