别再只盯着双塔模型了!聊聊Look-Alike召回:从广告投放到内容推荐的‘人群扩散’玩法
从广告到内容推荐Look-Alike技术的跨领域实践与思考在推荐系统与计算广告的交汇处Look-Alike技术正悄然改变着两种看似迥异却又本质相通的业务场景。这项起源于广告投放的技术如今已成为解决内容平台冷启动问题的利器。当技术从业者还在热议双塔模型时Look-Alike已经完成了从广告精准投放到内容个性化推荐的华丽转身。这种技术迁移背后隐藏着对用户行为理解的深刻洞察和商业价值挖掘的共通逻辑。1. Look-Alike的技术本质与跨领域应用基础Look-Alike技术的核心思想简单而有力通过已知的高价值用户种子用户寻找与之相似的其他潜在用户。这种人群扩散模式在广告和内容推荐中展现出惊人的适应性关键在于它抓住了两个领域的共同需求——在有限信号下最大化目标匹配效率。技术核心三要素种子定义广告关注转化率内容推荐关注互动行为相似度计算从基础特征到深度表征的演进扩散控制平衡精准度与覆盖面的艺术在广告领域特斯拉可能定义种子用户为25-35岁、高学历、科技爱好者的人群而在小红书的内容推荐中种子用户则是那些对新笔记有点赞、收藏行为的活跃用户。虽然业务目标不同但两者都面临着如何从少量种子扩展到更大潜在群体的相同挑战。提示Look-Alike不是特定算法而是一种技术框架允许根据业务特点灵活选择相似度计算和扩散策略2. 广告与内容推荐场景的技术差异解剖2.1 种子用户定义的业务逻辑差异广告投放的种子用户通常由广告主直接定义具有明确的商业属性高价值客户画像如购买过特定产品的用户人口统计学特征年龄、性别、收入等兴趣标签通过第三方数据或历史行为得出相比之下内容推荐的种子用户定义更加动态和隐式# 小红书风格的种子用户识别逻辑示例 def identify_seed_users(note, user_actions): seeds [] for action in user_actions: if action.type in [click, like, collect, share]: if action.note_id note.id: seeds.append(action.user) return seeds2.2 相似度计算的演进路径广告场景早期依赖显式特征匹配匹配维度广告场景内容推荐场景基础特征人口属性、地理位置用户基础画像行为特征点击、转化历史互动行为序列社交特征社交关系图谱关注网络深度特征用户嵌入向量双塔模型表征现代Look-Alike系统已普遍采用深度学习表征如通过双塔模型获取用户和内容的嵌入向量再计算余弦相似度similarity(u,v) \frac{u \cdot v}{||u|| \cdot ||v||}2.3 扩散规模控制的平衡艺术不同业务对精准度和覆盖面的需求差异明显广告场景优先保证转化率可接受较小覆盖面通常采用严格的多级过滤预算约束下的扩散控制内容推荐场景需要平衡新颖性和相关性动态调整扩散半径基于实时反馈的快速迭代3. 技术迁移中的实战经验与陷阱规避将广告领域的Look-Alike技术迁移到内容推荐并非简单复制需要针对性地解决几个关键问题。3.1 冷启动问题的特殊处理新物品缺乏历史交互数据是内容推荐的独特挑战。小红书采用的动态种子池策略值得借鉴初始曝光获得第一批种子用户计算种子用户的平均向量作为物品表征近线更新分钟级延迟表征向量通过向量数据库实现高效相似查找实现示例class NoteRepresentation: def __init__(self): self.user_vectors [] def update(self, new_user_vector): self.user_vectors.append(new_user_vector) # 保持最近1000个种子用户的向量 if len(self.user_vectors) 1000: self.user_vectors.pop(0) property def mean_vector(self): return np.mean(self.user_vectors, axis0)3.2 实时性与计算效率的权衡广告场景可以容忍较高延迟而内容推荐对实时性要求更高考量因素广告场景内容推荐场景数据更新频率小时/天级分钟级响应延迟可接受秒级需毫秒级计算资源侧重离线批量处理需要在线实时计算3.3 评估指标的差异化设计广告效果评估相对直接CTR、转化率、ROI而内容推荐的评估更加多维内容推荐特有的评估维度长期用户满意度内容生态健康度创作者激励效果多样性指标4. 前沿探索Look-Alike技术的创新方向随着基础技术的成熟Look-Alike正在向更智能、更自适应的方向发展。4.1 多模态融合的新机遇结合视觉、文本等多模态信息增强用户表征用户生成内容分析跨模态注意力机制多任务联合训练4.2 图神经网络的深度应用将用户-物品交互视为异构图利用GNN捕捉高阶关系# 简化的GNN Look-Alike实现思路 class GNNLookAlike(torch.nn.Module): def __init__(self, hidden_dim): super().__init__() self.conv1 GraphConv(hidden_dim, hidden_dim) self.conv2 GraphConv(hidden_dim, hidden_dim) def forward(self, graph, x): x self.conv1(graph, x) x F.relu(x) x self.conv2(graph, x) return x4.3 可解释性与可控性的提升业务方对黑箱扩散的担忧催生了解释性研究相似度归因分析扩散路径可视化人工干预接口设计在实际项目中我们发现Look-Alike的效果高度依赖种子质量。一次A/B测试显示当种子用户纯度从70%提升到90%时扩散用户的CTR提高了43%但覆盖用户数下降了28%。这种权衡需要根据业务阶段动态调整——增长期可能侧重覆盖面成熟期则更关注精准度。