1. 监控系统压力
-
Prometheus 等监控工具在大规模集群下可能面临:
-
抓取目标多、指标量大,存储与查询性能下降
-
配置复杂、资源占用高
-
建议:
-
使用 Thanos、Cortex、VictoriaMetrics 等方案做监控数据的分片与长期存储。
-
合理设置抓取间隔与指标粒度,避免采集过多无用指标。
2. 日志系统瓶颈
-
大量容器日志如果全部采集到中心(如 Elasticsearch),会导致存储与写入压力极大。
建议:
-
使用 日志采样、分级采集、边缘预处理 等策略。
-
考虑使用 FluentBit + Loki + Grafana 等轻量级组合,或 对象存储归档策略。
