阿里妈妈提出直播推广轻量好用的出价算法 | KDD‘25

📅 发布时间：2026/7/6 3:51:29 👁️ 浏览次数：

摘要互联网直播广泛应用于在线娱乐和电子商务领域其中直播推广是主播重要的营销工具。一个推广计划希望在预算和单次点击成本等约束条件下最大化其效果如转化量。当前主流的推广计划控制方式是自动出价auto-bidding其效果取决于每次广告请求中出价算法的决策。现有方法要么未考虑全天候的整体流量分布要么计算复杂度过高。本文针对直播推广对实时出价秒级控制的高要求以及未来流量未知的挑战提出了一种轻量级出价算法BiCBBinary Constrained Bidding。该算法巧妙地将数学分析推导出的最优出价公式与未来流量估计的统计方法相结合并通过低复杂度的求解方式获得对最优结果的良好近似。此外阿里妈妈直播广告算法团队完善了传统自动出价建模中的上下界约束形式并对 BiCB 给出了理论分析。论文 Lightweight Auto-bidding based on Traffic Prediction in Live Advertising (KDD 25)链接 https://www.arxiv.org/abs/2508.06069一、问题背景互联网直播已成为媒体和电子商务的主流形式。为了主动触达消费者以提升人气与销量直播推广已成为主播重要的营销工具。与传统图文推广类似直播推广通常采用实时竞价机制RTBReal-Time Bidding。在 RTB 中客户创建的推广活动通常需要在预算和单次点击成本等约束条件下最大化推广效果如转化量、新增粉丝数等。当用户向直播推广系统发起请求时平台会基于拍卖机制例如广义第二价格拍卖Generalized Second Price, GSP对各推广按出价进行排序出价最高的推广赢得展示机会并被计费。当前主流的推广计划控制方式是自动出价auto-bidding它结合推广计划的基本信息与当前流量状况为每次推广请求动态计算出价决策。与传统推广不同直播推广对时效性要求极高。随着主播讲述内容的高潮与低谷其希望推广能在几分钟内引爆直播间这就要求推广系统具备秒级的实时感知与调控能力。从客户视角建模自动出价auto-bidding通常会建模成一个线性规划问题。该模型的目标函数是所有流量请求价值的总和约束条件则包括预算、单次点击成本上限等多个线性限制。理论上该问题可通过线性规划求解器获得最优解。然而这要求提前获知全部流量信息。在实际场景中推广活动在任意时刻都需对当前的流量请求做出出价决策而此时算法既无法预知未来的流量分布也无法修改历史已做出的决策。这一“在线决策、未来未知、不可回溯”的特性正是自动出价所面临的最大挑战。在审视自动出价建模的线性特性后本研究考虑最简化的建模场景在预算约束下最大化转化量Budget-Constrained Bidding, BCB其目标函数和约束均为线性的。对此问题直观的求解方法是线性规划。此外BCB 本质上是一个典型的背包问题knapsack problem也可通过贪心算法求解将所有流量请求按照“转化性价比”即单位成本带来的转化价值进行排序优先选择性价比高的请求——这类似于优先将高价值物品装入背包直至累积成本达到预算上限即背包容量。由于单个流量请求的粒度足够小该贪心策略能够获得非常接近最优解的近似结果。值得注意的是在此算法中物品流量请求被选入背包的顺序并不重要。真正需要的是确定一个性价比阈值只要请求的性价比高于该阈值即可被选中。一旦阈值确定无论流量以何种随机顺序到达只要大于阈值就进背包最优解就是不变的。而这一性价比阈值的求解仅依赖于对全体流量的成本与转化分布的整体认知并不依赖于特定的时序处理过程。然而其核心前提仍是必须提前获知全天完整的流量信息。这在实际在线推广场景中通常是无法满足的因而构成了理论最优与现实可行之间的关键鸿沟。因此提出了 BiCBBinary Constrained Bidding算法。本文将该问题建模为一个广义背包问题并设计了一种轻量级、类贪心的求解策略。具体地对原始优化问题进行拉格朗日对偶分析推导出判断某次流量请求是否应赢得展示机会的决策准则。该准则的计算依赖于对偶变量的最优取值。在线决策时系统对每个实时请求依次应用此准则若满足条件则赢得该请求否则放弃。该方法经证明能够对线性规划的最优解实现优异的近似效果。而对偶变量的求解需基于对全天流量分布的估计。其基本思路是尝试一组对偶变量利用该组变量计算决策准则并据此“模拟执行”全天流量检查最终是否满足所有约束如预算、点击成本等。若不满足则调整对偶变量并重复尝试直至约束被精确满足从而获得最优对偶变量。这其中对全天流量的“模拟执行”结果完全依赖于对流量的估计模型。为此我们基于历史数据训练了一个从对偶变量到一段时间执行结果的映射模型该模型仅需预测每个时间段的累积指标如累积花费、累积点击量等。接下来下文将详细介绍建模过程和解决方案。二、解决方案在实际推广投放中为筛选高质量流量客户有时希望所赢得请求的点击成本CPC、点击率CTR、投资回报率ROI等指标不低于某个下限阈值。例如过低的 CPC 可能对应低质量流量反而损害数据循环。为此在现有工作的基础上引入下界约束对问题建模进行扩展并以最常见的 CPC 下界约束为例进行讨论。假设某客户一天内可参与竞价的曝光请求共有次。对于第次曝光请求若赢得该曝光其预估点击率为实际发生的单次点击成本为点击后为客户带来的价值如转化率或转化价值为。设客户的总预算为CPC 的上界和下界分别为和。则该问题可形式化为如下线性规划Linear Programming, LP问题其中变量表示客户是否赢得第次流量请求。在论文中通过拉格朗日对偶分析得到最优出价公式为其中客户设置的CPC 的上界和下界分别为和一般由在线实时预估模型给出例如pCVRpGMV体现了该条流量的预估价值是原问题转化为对偶问题后的对偶变量对偶变量取到最优解时对应的bid就是最优解。值得注意的是对偶变量对所有流量一视同仁地生效这意味着全天流量下随着时间是保持恒定值的这是最优解的一个重要特性。如果退化到BCB背包问题就只会剩下一个对偶变量这个的物理含义就是挑选流量的性价比阈值最优解的全天恒定才能保证按照统一的性价比阈值作为标准来筛选优质流量进入背包。因此在此建模下对偶变量全天是否恒定能够侧面反映出价算法的效果是否优异。波动较大的对偶变量往往是次优的。以上求解过程中若能提前获知全天所有流量信息则可通过线性规划求解出最优的对偶变量。然而在现实场景中要实现这一理论最优解需要完成以下理想化步骤1构建一台“时间机器”。2通过该时间机器获取全天所有曝光请求的详细数据包括点击率、赢得价格、转化价值等。3基于前述优化问题离线计算出最优对偶变量。4回到当天的起始时刻依据已求得的对偶变量使用最优出价公式对每一请求进行实时出价并执行全天的最优投放策略。因为当前尚不具备“时间机器”的能力为了逼近这一理论最优解需要具备以下三项关键能力1未来流量预测能力替代“时间机器” 需要能够准确估计全天流量的整体分布特征2最优出价公式基于数学建模的解析结论得到一个最优解出价公式3轻量高效的在线算法由于直接求解大规模线性规划问题的计算开销过大需设计低复杂度的近似算法。在论文中对偶分析标明最优解充要条件是1或者且总消耗等于预算2或者且实际 CPC 等于上界3或者且实际 CPC 等于下界因此所谓的“时间机器”实际上只需在给定一组对偶变量后预估其执行后全天的总消耗、实际CPC并和预算B、上界、下界进行比对如果满足上述3个条件则找到了最优解。因此基于历史数据训练了一个回归模型用于拟合两个函数,。其中表示该客户按照作为固定变量从开始投放到投放结束的累积消耗。同理表示累积点击。线上使用时算法每隔一段时间例如10秒钟调用一次预估模型得到COST和CLK的预估值进而可以计算预估的CPC然后和预算B、、进行对比是否满足最优解充要条件。如果不满足则调整重新调用预估函数直到条件满足。值得注意的是B、、和之间存在一些单调关系因此可以用二分法搜索或者用梯度下降法求解。这就是该工作提出的BiCBBinary Constrained Bidding算法。这个方法的求解过程是BCB背包贪心算法的推广形式。BCB背包贪心算法中只需要尝试不同的性价比阈值p然后评估竞得的累积COST是否等于预算B来决定是否满足最优解。本文对BiCB算法进行了理论分析和背包贪心算法类似地在典型的互联网场景中由于每条流量起作用的颗粒度足够小贪心算法的性能非常接近线性规划的最优解通常可以达到98%最优解的近似度。在该方法中只需基于当前的对偶变量对未来累积消耗和累积点击量进行估计即可。在按点击付费CPC推广系统中用户行为事件通常按以下顺序发生曝光 → 点击 → 消耗 → 转化。其中转化数据远比点击和消耗数据稀疏且具有更长的时间延迟这使得累积转化量的估计比累积消耗更加困难。一些方法建模中的价值函数主张能够准确估计累积转化量那么BiCB的方法理应能更轻松、更准确地估计累积消耗和累积点击量。为什么BiCB不需要估计累积转化量? 原因在于该最优出价公式源自线性规划LP模型的对偶分析该公式在给定对偶变量的前提下天然保证了累积转化量的最大化。因此唯一需要求解的就是对偶变量的取值而对偶变量的求解仅依赖于对累积消耗和累积点击量的估计无需涉及转化数据。这正是 BiCB 方法的巧妙之处它将已有的数学分析结论与统计预测模型有机结合避免了对高延迟、高稀疏性转化信号的直接建模。BiCB方法不需要构建离线仿真环境而对累积消耗与累积点击量的估计是一个典型的监督学习问题可以直接复用推广系统中已有的 CTR 预估模型和用户停留时长预估等基础设施。此外BiCB 的在线预估频率仅为每几秒一次 QPSQueries Per Second远低于 CTR 模型的实时推理 QPS。在直播推广场景中由于主播对实时性的要求系统需要每 10 秒进行一次控制决策即每天需执行 8640 次出价调整相当于一个长度为 8640 的决策序列如此长的序列建模是困难的。BiCB 方法通过避免显式序列建模转而依赖对全天流量分布的轻量级统计估计和解析出价公式有效绕开了长序列带来的计算与训练瓶颈。综上BiCB 在保证接近理论最优效果的同时实现了较低的工程复杂度与部署成本。三、实验效果离线实验比较了以下几种基线离线线性规划Offline LP借助能够预知全天流量细节的“超自然能力”离线线性规划可给出理论上的最优出价方案。BiCB* BiCB 算法在未来流量预测完全准确的理想情况下的表现。该设定用于评估 BiCB 在无预测误差时的理论上限性能。Manual Bidding人工出价客户为所有曝光请求设置一个固定的出价值不随流量质量、预算消耗或约束状态动态调整。Local PID 为每个对偶变量如预算、CPC 上下界对应的变量分别部署独立的 PID 控制器。系统根据最近时间窗口内的实际花费速率或 CPC 是否满足约束实时调整对偶变量进而动态计算出价。Online LP 在训练集上求解离线线性规划LP得到最优对偶变量然后将该固定解直接应用于测试集进行出价。IQL 一种通用的离线强化学习Offline RL方法。DT 一种基于决策 TransformerDecision Transformer, DT的 AIGBAuto-bidding with Generative Modeling方法。将自动出价问题建模为生成式的序列决策任务利用 Transformer 架构根据历史状态序列生成未来出价动作。实验设置了两种场景在 BCB设定下Budget-Constrained Bidding各方法的目标是在固定预算约束下最大化总收益如转化量或客户价值。在 BiCB 设定下Binary Constrained Bidding除了预算约束外算法还需确保整个投放周期内的累积 CPC 同时满足预设的约束。实验结果如下表其中 R 表示某算法所获得的收益R∗ 表示通过线性规划LP算法得到的理论最优收益。 R/R∗ 用于衡量该算法的性能与理论最优解之间的接近程度——比值越接近 1说明算法效果越优。可以看到BiCB算法有着很好的效果。值得注意的是BiCB*算法因为具备了完全准确预测未来流量的能力其性能非常接近最优解。这也说明了BiCB算法理论的正确性以及未来累积统计量预估准度的重要性。此外线上实验也验证了BiCB算法的有效性并已在线上推全部署上图中通过绘制对偶变量随时间的变化可以看到BiCB算法的对偶变量更近似一条直线这说明其在逼近最优解方面更有优势。四、结论基于直播推广对高频出价控制的要求该工作对自动出价的线性规划建模进行了改进引入了上下界联合约束机制并提出了一种轻量级自动出价算法——BiCBBinary Constrained Bidding。 BiCB 的核心思想源于线性规划对偶分析所导出的最优出价公式。在此基础上算法通过一个轻量级的未来流量预测模块结合低复杂度的近似求解策略在显著降低计算开销的同时实现了对理论最优解的高精度逼近。目前该算法已全量部署于阿里妈妈的直播推广业务中并取得了正向的业务收益。关于我们阿里妈妈直播广告算法团队致力于用人工智能技术打造直播商业化产品的创新、架构的升级、算法的突破涉及广告算法的所有环节包括召回、排序、机制策略、创意、内容理解等。团队在ICML、KDD、IJCAI、SIGIR等学术会议上发表多篇论文。欢迎优秀的你加入我们投递简历邮箱 junqi.jjqalibaba-inc.comEND也许你还想看化繁为简精工细作——阿里妈妈直播智能剪辑技术详解贝叶斯分层模型应用之直播场景打分校准8篇论文入选CVPR 2026一文速览新成果ABPlanner基于Few‑Shot的个性化自动出价模型关注「阿里妈妈技术」了解更多~喜欢要“分享”好看要“点赞”哦ღ~

相关新闻

最新新闻

日新闻

周新闻

月新闻