1. 项目概述当在线学习遇见波束赋形在毫米波通信系统的日常运维和算法调优中我们常常面临一个经典困境如何在信道快速变化、用户需求动态波动的环境中实时地为多个用户分配合适的波束和调制编码方案MCS以最大化系统吞吐量或保证公平性传统的优化方法往往需要精确的、实时的全局信道状态信息这在实践中成本高昂甚至不可行。而纯粹基于试错的“盲选”策略则会导致大量的资源浪费在低效的探索上用户体验急剧下降。近年来组合多臂赌博机框架为这类序贯决策问题提供了优雅的数学抽象。你可以把每个可选的“波束-用户”配对看作一个“基础臂”把一次完整的调度决策例如为15个用户各分配一个波束和一个速率等级看作拉动一组基础臂构成的“超级臂”。每次决策后系统只能观察到被服务用户的二元反馈例如ACK/NACK这就是典型的组合半赌博机场景。我们的目标是通过有限的交互数据学习到一个能带来高累积奖励如总吞吐量的决策策略。但追求“绝对最优”真的是唯一且最经济的目标吗在实际网络运维中我们可能更关心“是否达标”。例如只要每个用户的平均吞吐量能稳定在400Mbps以上系统就可以视为运行良好而不必苛求那最后5%的极致性能提升因为那可能需要付出不成比例的探索成本。这种“够用就好”的思想正是满足性目标的核心。它不要求找到全局最优解只要求找到一个能达到预设性能阈值τr的解。这听起来很务实但如何在CMAB的框架下实现它并保证其学习效率即满足性遗憾有界则是一个全新的理论挑战。本文要深入解析的SAT-CTS算法便是针对这一挑战提出的创新解决方案。它不是一个简单的启发式方法而是一个具有严格理论保障的混合门控策略。其核心思想非常直观先用一个保守的下置信界门去快速筛选掉明显不达标的选项再用一个基于样本均值的均值门去做更精细的确认如果前两者都无法找到满足阈值的方案则启动一个完全探索性的汤普森采样阶段去主动学习。这种结构使得算法在目标可达时能迅速锁定一个满意解并停止无谓的探索从而实现有界遗憾在目标不可达时又能优雅地退化为追求最优解的标准CTS算法保持对数遗憾增长。在接下来的内容里我将从一个算法工程师和理论分析者的双重视角带你彻底拆解SAT-CTS。我们不仅会一步步还原它的设计逻辑与实现细节更会深入其理论证明的肌理看看那些关键的常数项和收敛速度是如何被推导出来的。最后我们还会结合论文中的仿真实验讨论它在实际毫米波信道场景下的表现、可扩展性以及一些工程实现上的微妙之处。2. 核心问题建模与算法骨架拆解2.1 问题形式化从通信场景到组合赌博机首先我们需要将波束-速率选择这个工程问题精确地映射到组合多臂赌博机的数学模型上。这是所有后续分析与算法设计的基础。假设系统中有M个用户UE需要被服务以及一个由K个波束构成的码本。在每个时隙t调度器需要完成一个指派为每个用户m分配一个波束bm(t)和一个离散的传输速率rm(t)。这里有一个关键约束一个波束在同一时隙只能服务一个用户以避免波束间干扰。因此一个有效的决策St是一个从用户到波束速率对的单射。基础臂与超级臂我们将每个可能的“波束i速率r”二元组定义为一个基础臂。其期望奖励μi,r可以建模为r * ψi,r其中r是速率如6, 8, 12 bits/symbolψi,r是在使用波束i并以速率r传输时用户接收成功的概率即ACK概率。一个超级臂s就是一组M个基础臂的集合且满足波束不冲突约束。反馈模型在组合半赌博机设定下拉动超级臂s后我们可以观察到这M个基础臂各自的二元反馈ACK1, NACK0。这是非常符合实际通信系统的反馈机制远比获取精确的信道增益信息来得简单和鲁棒。奖励函数我们的目标是最大化所有被服务用户的平均吞吐量。因此在时隙t选择超级臂St获得的即时奖励g(St)定义为g(St) (1/M) * Σ_{m1 to M} [rm(t) * (ACK for user m)]的期望。 其期望值g(s) E[g(St) | St s] (1/M) * Σ_{i,r in s} r * ψi,r。满足性目标我们设定一个性能阈值τr例如对应400 Mbps的用户平均吞吐量。定义满足性遗憾Δ_sat(s)Δ_sat(s) [τr - g(s)]^其中[x]^ max(x, 0)。 也就是说只有当一个超级臂s的期望平均吞吐量g(s)低于阈值τr时才会产生正遗憾。如果g(s) τr则遗憾为零。我们的目标是设计算法最小化累积满足性遗憾R_S(T) Σ_{t1 to T} Δ_sat(St)。这个定义的精妙之处在于它彻底改变了算法的优化导向。传统CMAB算法如CUCB, CTS致力于缩小与最优臂s* argmax g(s)的差距即标准遗憾Δ_std(s) g(s*) - g(s)。而在满足性目标下一旦找到一个g(s) τr的臂算法就可以“满足”并停止对其的探索转而利用它即使它可能不是全局最优的。这为大幅降低学习成本提供了可能。2.2 SAT-CTS算法核心流程与三大门控SAT-CTS算法的整体流程是一个状态机在三个主要阶段LCB MEAN CTS之间切换。它维护两组计数器私有计数器n_i^priv(t)专门用于CTS阶段每个CTS轮次开始时重置。共享计数器n_i^shared(t)用于LCB和MEAN阶段累积所有历史观测。初始化阶段前T0个时隙以轮询方式探索每个基础臂至少一次初始化共享计数器。主循环每个时隙 t T0 算法依次执行以下门控判断2.2.1 LCB下置信界门控这是最保守、最乐观对于满足性而言的过滤器。计算对于每个基础臂i计算其LCBLCB_i(t) r_i * max{0, ψ_i^hat(t) - c(t, n_i^shared(t))}。其中ψ_i^hat(t)是共享计数器下的经验成功概率c(t, n) sqrt( (3 log t) / (2n) )是置信区间半径。决策对于每个候选超级臂s计算其乐观的下界估计g_LCB(s, t) (1/M) * Σ_{i in s} LCB_i(t)。逻辑如果存在某个s使得g_LCB(s, t) τr则算法选择这个s通常选择其中最大的。这个逻辑基于一个关键观察在“好事件”即所有基础臂的真实均值都在其置信区间内下有g(s) g_LCB(s, t)。因此如果g_LCB(s, t)已经超过阈值我们就能确定g(s)也超过了阈值选择它不会产生满足性遗憾。LCB阶段的目标是零成本利用。实操心得LCB门控中的max{0, ...}操作至关重要。因为成功概率的估计值ψ_i^hat可能因探索不足而非常小减去置信区间后可能为负。取最大值保证了LCB的非负性符合物理意义。在实际编码时这是一个易错点。2.2.2 MEAN均值门控如果LCB门控没有通过即所有超级臂的LCB估计都低于阈值则进入MEAN门控。计算直接使用共享计数器的经验均值进行估计g_shared^hat(s, t) (1/M) * Σ_{i in s} r_i * ψ_i^hat(t)。决策如果存在某个s使得g_shared^hat(s, t) τr则选择这个s。逻辑MEAN门控比LCB更“激进”。它不再要求一个保守的、概率性的保证而是基于当前的最佳估计做出决策。如果经验均值显示某个臂达标我们就尝试它。但这有风险由于估计误差我们可能高估了一个臂的性能即g_shared^hat(s, t) g(s)从而导致选择了一个实际不达标的臂产生遗憾。MEAN阶段是算法产生满足性遗憾的主要来源之一但其发生概率可以被理论约束。2.2.3 CTS汤普森采样阶段如果前两个门控均未找到达标的超级臂算法则进入CTS阶段。这个阶段以“轮次”进行每个轮次i包含2^i个时隙。机制在每个CTS轮次内算法运行一个全新的、标准的组合汤普森采样实例。每个基础臂维持一个Beta先验分布通常为Beta(1,1)。在每个时隙根据每个臂的后验分布进行采样得到一个虚拟的成功概率样本θ_i(t)然后选择能使(1/M) * Σ_{i in s} r_i * θ_i(t)最大的超级臂s。观测到二元反馈后更新对应臂的Beta后验。目标切换在CTS阶段算法的目标暂时从满足性切换为标准遗憾最小化。它试图找到并利用期望吞吐量最高的超级臂s*。因为如果连最优臂s*都无法达到阈值τr即目标不可达那么CTS的行为就是最优的如果s*其实可达那么通过CTS的快速学习也能很快积累足够的数据使得s*的经验均值g_shared^hat(s*, t)超过阈值从而在下一个MEAN门控检查时退出CTS阶段。门控检查每个CTS轮次结束后算法会利用共享计数器它记录了包括CTS阶段在内的所有历史数据进行一次MEAN门控检查。如果检查通过则退出CTS阶段回到主循环的LCB门控否则开启下一个更长的CTS轮次。理论精要这种“几何增长”的轮次设计轮次长度2^i是证明CTS阶段总遗憾为常数的关键。它确保了随着轮次索引i增大轮次开始的概率呈几何级数(2δ)^k衰减δ是一个小常数从而使得无穷级数求和收敛。2.3 算法参数与工程实现细节置信区间函数c(t, n)公式c(t, n) sqrt( (3 log t) / (2n) )来源于霍夫丁不等式和并集界保证了所有臂在所有时隙的置信区间以高概率同时成立。3 log t中的3是为了确保求和Σ_{t1}^∞ P(坏事件)收敛。在实际实现中如果时隙T非常大log t可能溢出需使用log(float(t))并注意数值稳定性。初始化长度T0T0需要至少大于基础臂的数量以确保每个臂都被探索过一次。通常可以设为|A|基础臂总数或稍大一些。在论文的证明中T0的贡献体现为常数项R_init T0 * τr。共享 vs 私有计数器这是SAT-CTS一个精巧的设计。共享计数器保证了LCB和MEAN门控能利用全部历史信息加速学习。私有计数器的重置则保证了每个CTS轮次都是一个“重新开始”的TS满足了理论分析中“独立轮次”的假设使得经典CTS的遗憾上界可以被直接引用。然而在实验部分作者提到他们并未真正重置私有计数器而是让CTS阶段持续更新一个全局的Beta后验这带来了更好的实际性能。这揭示了理论与工程的一个常见折衷理论分析需要干净的假设来得到紧致的界而工程实现可以更灵活地利用信息。超级臂选择Oracle在LCB和MEAN门控中我们需要在所有满足波束冲突约束的超级臂中寻找g_LCB(s, t)或g_shared^hat(s, t)最大的臂。这是一个组合优化问题。在波束选择的场景下这可以转化为一个二分图最大权匹配问题用户为一方波束-速率对为另一方可以使用经典的匈牙利算法Hungarian Algorithm或KM算法高效求解。这是算法中计算复杂度最高的部分但其多项式复杂度对于实际系统是可接受的。3. 理论深度解析有界遗憾为何可能SAT-CTS最引人注目的理论贡献是在目标可达时证明了有界的满足性遗憾即E[R_S(T)] ≤ C其中常数C与时间跨度T无关。这与标准MAB/CMAB中至少对数增长O(log T)的遗憾形成了鲜明对比。下面我们深入其证明骨架理解这一反直觉结论如何成立。3.1 遗憾分解与关键事件定义证明的第一步是将总遗憾按照算法阶段和事件进行分解E[R_S(T)] ≤ R_init R_conf τr * E[B_MEAN(T)] E[Σ_{t in T_CTS} Δ_sat(S_t)]其中R_init初始化阶段的遗憾上界 (T0 * τr)。R_conf置信区间失效“坏事件”带来的遗憾上界。通过霍夫丁不等式和并集界可以证明其总和小于(π^2/3)*|A|*τr这是一个与T无关的常数。E[B_MEAN(T)]在MEAN阶段选择“坏臂”即g(s) τr的臂的期望次数。E[Σ_{t in T_CTS} ...]CTS阶段产生的总遗憾。因此证明有界遗憾的关键就变成了证明后两项也是与T无关的常数。3.2 约束MEAN阶段的坏选择次数为什么MEAN阶段选择坏臂的次数是有限的核心在于过估计事件的分析。 定义一个基础臂i在时隙t的过估计事件E_{i,t}(ε) { ψ_i^hat(t) - ψ_i ε }即其经验成功概率高估了真实值至少ε。引理连接可以证明在MEAN阶段每一次选择坏臂s且其经验均值被高估到超过阈值τr都意味着至少有一个组成臂i ∈ s发生了过估计事件且过估计的量ε至少为Δ_i^{bad} / r_i。这里Δ_i^{bad}是一个与臂i相关的、正的“坏臂间隙”常数它衡量了包含臂i的所有坏臂s距离阈值τr的最小差距。概率控制根据霍夫丁不等式单次过估计事件E_{i,t}(ε)发生的概率上界为exp(-2 * n_i(t) * ε^2)。那么对于固定的ε臂i在所有时隙上发生这种过估计的总期望次数可以被Σ_{n1}^∞ exp(-2nε^2) ≤ 1/(2ε^2)所界定。这是一个有限常数将ε替换为Δ_i^{bad} / r_i并对所有基础臂i求和就得到了E[B_MEAN(T)]的一个与T无关的常数上界Σ_{i in A} r_i^2 / (2*(Δ_i^{bad})^2)。这意味着MEAN阶段犯错的次数是有限的其贡献的遗憾自然也是有界的。深度思考这一部分的证明精髓在于将组合决策的犯错选择坏超级臂归因到基础臂的统计误差过估计上。由于基础臂的数量是有限的且每个基础臂的严重过估计次数是有限的因此整体的犯错次数也就是有限的。这体现了组合半赌博机中“半反馈”的价值——即使我们只观察到所选超级臂的局部反馈它也能为约束每个基础臂的估计误差提供足够信息。3.3 约束CTS阶段的总遗憾这是证明中最精妙的部分。我们需要证明即使CTS阶段可能无限次地被触发其产生的总遗憾期望值也是一个常数。核心思路证明CTS轮次开始的概率呈几何级数衰减。定义关键观测次数N0对于一个可达的最优臂s*其g(s*) τr存在一个关键观测次数N0。一旦s*中每个基础臂在共享计数器中被拉动的次数都超过N0那么其经验均值g_shared^hat(s*, t)低于阈值τr的概率将小于一个预设的小常数δ。这个N0与log(1/δ)成正比与最优臂超出阈值的量Δ* g(s*) - τr的平方成反比。定义关键轮次长度T*_CTS基于CTS的标准遗憾上界O(log T)我们可以计算出一个关键的轮次长度T*_CTS。如果一个CTS轮次的长度2^i超过了T*_CTS那么在这个轮次内CTS算法有很高的概率1-δ拉动最优臂s*至少N0次。几何衰减论证考虑一个长度2^i T*_CTS的CTS轮次i。在这个轮次结束后MEAN门控检查失败从而触发下一轮需要两个条件同时发生(a) 在本轮CTS中s*被拉动的次数少于N0或者 (b) 即使s*被拉了至少N0次其经验均值仍然低于阈值。根据步骤1和2事件(a)和(b)发生的概率都各自不超过δ。因此在轮次i已经开始的条件下轮次i1也开始的概率不超过2δ。假设δ 1/4则2δ 1/2。这意味着随着轮次索引i的增长该轮次会开始的概率P(round i starts)以比(2δ)^i更快的速度衰减具体是(2δ)^{i - i*}i*是第一个长度超过T*_CTS的轮次索引。求和收敛CTS阶段的总遗憾是每个轮次遗憾的加权和权重就是该轮次开始的概率。由于轮次长度2^i呈几何增长而轮次开始的概率呈几何衰减两者的乘积求和即总遗憾期望是一个收敛级数最终被一个与T无关的常数所界定。理论贡献这个“几何轮次几何衰减”的分析框架非常强大。它将算法在“利用”MEAN门控和“探索”CTS阶段之间的动态切换转化为一个概率可控的过程。一旦算法有足够信心通过N0次观测确认存在达标臂它就会以高概率退出昂贵的探索阶段而探索阶段本身的成本又被其快速衰减的启动概率所控制。3.4 目标不可达时的退化保证当阈值τr设定过高没有任何超级臂能达到时SAT-CTS的理论行为同样优雅。LCB门控由于g(s) ≤ g* τr对所有s成立在好事件下g_LCB(s, t) ≤ g(s) τr。因此LCB门控永远不会通过。MEAN门控同理经验均值g_shared^hat(s, t)是g(s)的无偏但带噪声的估计。随着数据积累它会集中在真实值g(s)附近而所有g(s)都小于τr。因此MEAN门控通过的概率也会随着时间衰减至0。算法行为最终算法几乎总是会进入CTS阶段。而一旦进入由于目标不可达算法不会再退出因为MEAN检查永远不会通过。此时SAT-CTS就退化为了一个不断重启的、标准的CTS算法序列。遗憾分析在这种情况下有限时间内的主要遗憾来自初始的有限次MEAN门控尝试和CTS阶段。可以证明MEAN阶段尝试的总次数是有限的常数而CTS阶段的遗憾累加由于轮次长度指数增长总遗憾的上界为O((log T)^2)。这虽然比标准CTS的O(log T)略差多了一个log T因子源于轮次重启的开销但仍然是次线性的保证了算法的长期学习效率。4. 实验评估与工程洞见理论分析提供了性能保障的“天花板”而实验则揭示了算法在更复杂、更贴近现实的场景下的“地板”表现。论文基于DeepMIMO数据集进行的仿真为我们提供了丰富的工程洞见。4.1 实验设置与基准算法仿真环境场景3个基站每个基站配备64天线ULA码本包含120个波束共360个波束服务15个随机分布的用户。信道采用DeepMIMO的city_3_houston_28场景基于射线追踪生成具有空间一致性的毫米波信道。反馈与速率二元ACK/NACK反馈。自适应调制与编码速率等级为 {6, 8, 12} bits/symbol对应50MHz带宽下的 {300, 400, 600} Mbps。阈值可达目标设为τr 8(400 Mbps)不可达目标设为τr 25(1.25 Gbps)。优化Oracle使用匈牙利算法解决最大权匹配问题。对比算法CTS标准的组合汤普森采样算法。它始终以最大化期望吞吐量为目标是满足性遗憾的自然对比基准。CUCB组合上置信界算法。一种乐观的算法在组合赌博机中常用作基准。SAT-CTS-W论文早期研讨会版本的一个变体。用于对比凸显最终版SAT-CTS的改进。4.2 核心性能结果分析图3可达目标下的累积满足性遗憾这是最能体现SAT-CTS优势的场景。我们可以看到SAT-CTS的遗憾曲线在经历初期学习阶段后很快趋于平坦。这意味着算法在找到满足阈值的波束-速率分配方案后便稳定在该方案上不再产生新的遗憾。这直观地验证了其有界遗憾的理论性质。CTS和CUCB的遗憾曲线则持续增长。因为它们的目标是寻找最优解即使已经找到了一个达标解它们仍会为了寻找可能存在的、哪怕只比当前解好一点点的方案而继续探索从而持续产生标准遗憾。在满足性指标下这种探索被视为“浪费”。SAT-CTS-W的性能介于SAT-CTS和CTS之间说明论文最终版的算法结构如确定的CTS轮次、移除乐观UCB门控等是有效的改进。图4不可达目标下的累积满足性遗憾此时所有算法的遗憾都线性增长因为没有任何方案能达到过高的阈值。值得注意的是SAT-CTS, SAT-CTS-W, CTS三条曲线几乎重合。这完美验证了理论当目标不可达时SAT-CTS会退化为CTS。其前期因LCB/MEAN门控产生的微小差异很快被主导的CTS阶段行为所淹没。CUCB的遗憾显著更高。这表明在组合问题中基于Thompson Sampling的探索策略通常比基于UCB的乐观策略更高效尤其是在处理复杂的相关性和非线性奖励时。公平性指标图5图6论文还考察了用户级公平性Jain‘s Fairness Index和对数效用和。结果显示基于满足性的算法SAT-CTS及其变体在公平性上显著优于传统算法。这是因为满足性目标本身不鼓励“锦上添花”——一旦所有用户都达到了基本性能阈值算法就没有动力去进一步拉大用户间的性能差距。而追求总和最大的CTS和CUCB则可能为了系统总吞吐量而牺牲部分边缘用户的性能。这一发现对网络运维具有重要启示引入满足性目标可以作为一种隐式的公平性促进机制在不显式增加公平性约束的情况下改善资源分配的均衡性。4.3 可扩展性实验的深入解读论文通过改变波束码本大小、基站数量和用户数量测试了算法的可扩展性。一些反直觉的结果值得深究表III波束码本大小的影响算法\波束数/基站3060120240SAT-CTS8169797555964156CTS84147928894010182一个有趣的现象是随着波束码本从120增大到240SAT-CTS的遗憾反而降低了。这可能源于两个效应探索效率更大的码本意味着更精细的波束指向可能使得“优质”波束指向性更强干扰更小更容易被区分出来。SAT-CTS能够快速锁定这些优质波束从而更快满足阈值。物理层增益更窄的波束意味着更高的天线增益和更低的用户间干扰。这直接提升了信道质量使得ψ_i,rACK概率普遍提高从而让更多的分配方案能够满足吞吐量阈值τr降低了学习难度。工程启示算法性能并非总是随问题复杂度增加而恶化。有时物理层或问题结构的改进如更精细的波束成形会为学习算法创造更友好的环境。在评估学习算法时需要将其与底层物理模型的变化结合起来看。表V用户数量的影响算法\用户数1550100SAT-CTS559649401634CTS894061154463在总波束数360固定的情况下用户数从15增加到100SAT-CTS的遗憾显著下降。这似乎有悖常理因为用户数增加通常意味着决策空间变大、问题更复杂。可能解释在组合半赌博机中每轮决策会获得M个用户数基础臂的反馈。用户数M增加意味着每轮获得的反馈信息量也线性增加。对于SAT-CTS这样的算法更多的反馈有助于更快地更新所有基础臂的估计从而加速学习。在这个特定实验中360个波束对100个用户来说仍然相对充裕波束竞争不激烈因此“更多反馈”的收益盖过了“分配更复杂”的成本。注意作者强调这只是一个特定场景下的观察并非普遍结论。如果用户数接近或超过波束数竞争加剧性能可能会下降。4.4 实现细节与调参经验置信区间系数理论证明中使用的c(t, n) sqrt( (3 log t) / (2n) )是保守的。在实际应用中这个系数此处的3可以作为一个超参数进行微调。减小它会使置信区间变窄算法更“激进”可能加快收敛但也增加犯错风险增大它则使算法更“保守”。在工程中常通过小规模仿真或历史数据来调整此参数。阈值τr的选择τr是算法的核心输入。设置过高不可达算法退化为CTS设置过低算法可能过早收敛到一个次优的满意解。一个实用的方法是结合网络KPI如历史吞吐量分位数和业务需求来设定。例如可以将τr设为服务等级协议SLA要求值的95%。CTS阶段的先验理论分析假设每个CTS轮次重置先验为Beta(1,1)。但实验中发现使用全局累积的后验不重置性能更好。这是因为历史信息对于TS探索是有价值的。在实际部署中推荐采用这种“不断更新全局后验”的工程实现尽管它使得严格的理论分析变得困难。计算复杂度瓶颈算法的实时计算开销主要来自两部分a) 每个时隙的门控计算需计算所有候选超级臂的LCB或均值估计b) 匈牙利算法的调用。对于大规模网络基站/用户数很多需要设计低复杂度的近似匹配算法或者利用问题结构如局部性来减少候选集。5. 总结、局限与未来方向SAT-CTS算法为组合在线学习与无线资源管理的交叉领域提供了一个坚实而优美的框架。它将“满足即好”的务实哲学与具有严格理论保障的学习算法相结合在目标可达时实现有界遗憾在不可达时优雅退化并通过实验展示了其在吞吐量和公平性上的优势。个人在实际研究和工程化中的体会是这类理论驱动算法的魅力在于其清晰的模块化和可证明的性质。LCB、MEAN、CTS三个阶段的串联就像一个精密的决策漏斗先用最保守的过滤器确保安全再用当前最佳估计尝试最后才启动全面的探索。这种结构本身具有很强的可解释性和可扩展性。然而SAT-CTS也有其局限性和值得探索的改进方向对唯一最优臂的假设理论分析中假设了存在唯一的全局最优超级臂s*。在实际系统中可能存在多个性能相同的“最优”或“满意”臂。如何放宽这一假设分析算法在存在多个等价满意臂时的行为例如是否会震荡于它们之间是一个有趣的理论问题。上下文信息利用当前的模型是非上下文的。在实际网络中我们往往拥有丰富的上下文信息如用户位置、移动速度、业务类型、历史信道统计等。一个自然的扩展是开发上下文满足性组合赌博机算法利用这些侧信息来加速学习实现“冷启动”优化。动态环境适应性论文假设基础臂的奖励分布ψ_i,r是静态的。但在真实的移动网络中信道是时变的。如何将SAT-CTS与变化检测或非平稳赌博机技术结合使其能跟踪时变的满意阈值或信道条件是走向实际部署的关键。多目标与显式公平性SAT-CTS通过满足性目标隐式地促进了公平性。未来工作可以探索更显式的多目标优化框架例如在满足每个用户最低吞吐量阈值一组满足性约束的前提下最大化系统总吞吐量。这可以建模为一个带约束的组合赌博机问题。最后分享一个在复现此类算法时的小技巧在实现置信区间c(t, n)时对于n0的情况臂尚未被探索通常将c(t, 0)设为一个很大的值如正无穷这能确保新臂的LCB为0由于max{0, ...}从而在LCB门控中被优先探索。这是实现强制探索的一种简洁方式。