技术难点

高维稀疏

高维稀疏的问题简单来说就是以下两点:

  • 数据高维稀疏,用户、商品、场景特征维度很高。

  • 正样本少,点击样本少,转化样本极其少,而且不同平台转化跟踪还需解决。

正样本少的问题,不同平台有各自的难点,有的正样本量级可能是千分之几,有的可能是万分之几,甚至十万百万分之几的量级。不仅正样本少,还有一些获取问题

  • 转化影响问题,比如广告主比较有钱,广告投了很多平台,我刷抖音、知乎、微博时都刷到了三亚旅游的广告,先在抖音上看到引起了兴趣,过几天刷知乎时也看到这个广告且已经决定要去正在做攻略,又过几天在微博上又一次看到这个广告,直接决定点击进行购买。用户只要在平台点击广告,平台就会发送信息,现在有三个媒体平台信息,广告主将这次转化归给最后一次。这就造成了,对前面转化造成影响的平台不公平,且若用户看了后有兴趣但不点击广告,自行去搜索,这样转化数据更难以记录。

  • 转化滞后问题,比如游戏App广告,我们规定用户充钱才算转化,如果从爱奇艺平台入口点击、下载、安装、注册、试玩,但是半年后才充钱,这种由于转化滞后性的问题如何解决。现在naive的方法是转化的样本是1,给以样本权重,比如安装0.1,注册0.3,试玩0.6的正样本概率等;再者增加转化追踪时长,一般一个样本7天内未完成转化就当负样本了,现在由于存储量的升级,可以追踪更多用户,追踪更长的时间窗口。

从媒体平台角度来看,越接近用户日常的,特征越多,比如微博、知乎等;越接近转化出口的,转化数据越多,比如淘宝、美团等。所以如果有一个完整的生态体系,可以有更好的机会去解决这个问题。媒体平台越接近转化出口的平台越好做。淘宝、美团等转化直接就在平台完成,有丰富的转化数据。

实时性

Last updated