在做Rank系统时,我们常用ROC曲线的AUC来做离线评估。
AUC评估的是序,LOSS类指标(RMSE,log-loss等)评估的是值。
AUC更适合做Rank离线评估的原因有以下几点:
- 将预测值都乘以二,线上排序不会改变。离线评估时,LOSS类指标会有变化,AUC不会变。
- 使用Pairwise训练产生的模型,预测时输出的是rank-score,并不一定是CTR的点回归,LOSS类指标会比较差,不具参考意义。
- 在广告系统中,点击非常稀疏,经常会用到负样本抽样(或正样本过采样),如果不进行打分校正,线上排序不会改变,但LOSS类指标会比较差,不具参考意义。
但是离线AUC和线上CTR也不能完全对上,也存在很多坑。本文主要说说自己踩到的坑。。。
more >>