AIOps探索运维领域的Agent Skills研究AIOps已有大半年目前手里积累了不少可落地的方案接下来会陆续整理到我的大模型课程中。越深入研究AIOps越发现Skills的重要性。当然不只限于AIOps在其他场景中善用Skills同样能让我们事半功倍。01 | Docker地址https://agent-skills.md/skills/cosmix/claude-loom/docker简介帮你把应用装进容器里把 Dockerfile / docker-compose 写得更稳、更小、更安全。覆盖多阶段构建、镜像层优化、安全加固、网络、卷和调试。能力帮你写 Dockerfile让 Dockerfile 更小、更快帮你写 docker-compose排查容器启动失败加 healthcheck处理端口、环境变量、volume、网络配置检查安全问题如 root 用户运行、密码写进镜像、latest 标签、镜像过大等何时用Java / Python / Node / Go 应用要做成 Docker 镜像Dockerfile 能用但构建慢、镜像大docker-compose 起不来容器服务无法访问数据库、Redis 等想把生产环境容器配置规范化怎么用“这是我的 Node.js 项目结构请帮我写一个生产可用的 Dockerfile并解释每一行作用。”“这个 Dockerfile 构建太慢帮我优化要求镜像尽量小、不用 root 运行。”“这是我的 docker-compose.yml服务之间连不上请帮我排查网络和端口问题。”02 | Kubernetes Specialist地址https://agent-skills.md/skills/Jeffallan/claude-skills/kubernetes-specialist简介帮你把服务部署到 Kubernetes处理 Pod、Service、Ingress、RBAC、网络策略、存储和故障排查。能力写 Kubernetes YAMLDeployment / Service / Ingress配置 ConfigMap / Secret配置资源限制CPU / 内存配置 readinessProbe / livenessProbe配置 RBAC 权限、NetworkPolicy写 Helm Chart排查 Pod 启动失败、服务访问不通、资源分配不合理何时用服务要部署到 K8sPod 一直 CrashLoopBackOffIngress 访问不了服务之间无法通信想把裸 YAML 改成 Helm Chart想检查配置是否符合生产标准怎么用“这是我的 Deployment YAMLPod 一直 CrashLoopBackOff帮我看哪里有问题。”“我要部署一个服务到 K8s端口 80803 个副本、健康检查、资源限制和 Service请帮我生成 YAML。”“帮我检查这份 K8s 配置有没有生产风险比如权限、资源限制、Secret 使用方式。”03 | Terraform Engineer地址https://agent-skills.md/skills/Jeffallan/claude-skills/terraform-engineer简介帮你用 Terraform 管理云资源服务器、网络、数据库、权限、环境隔离等覆盖 module 开发、state 管理、多环境流程等。能力写 Terraform 代码设计目录结构拆分 dev / test / prod 环境设计可复用 module配置 remote state 和 state lock配置 AWS / Azure / GCP provider检查 Terraform 代码的安全性和可维护性何时用云资源太多控制台管不住了想用代码管理 VPC、ECS、RDS、AKS、IAM 等现有 Terraform 代码混乱想重构多环境配置重复想避免“生产与测试环境配置不一致”怎么用“我要用 Terraform 创建一套 AWS VPC 子网 NAT 安全组请帮我设计目录结构和代码。”“这是我们现有的 Terraform 代码帮我看怎么拆成可复用的 module。”“我们有 dev、staging、prod 三套环境帮我设计多环境管理方式。”04 | Ansible Automation地址https://agent-skills.md/skills/aj-geddes/useful-ai-prompts/ansible-automation简介帮你批量管理服务器装软件、改配置、打补丁、重启服务覆盖 playbooks、roles、inventory 等。能力写 Ansible playbook、inventory、role批量安装软件、修改配置、打补丁、重启服务检查 playbook 是否幂等何时用多台 Linux 服务器需要统一配置不想一台台 SSH 上去操作批量升级软件、下发 Nginx / SSH / 系统参数配置尚未全量上 K8s仍有很多 VM 或物理机怎么用“我有 50 台 Ubuntu 服务器要统一安装 Nginx、配置防火墙、启动服务请帮我写 Ansible playbook。”“这是我的 Ansible playbook帮我检查有没有不幂等或危险的地方。”“帮我把这个脚本改成 Ansible role方便以后复用。”05 | CI/CD地址https://agent-skills.md/skills/ahmedasmar/devops-claude-skills/ci-cd简介帮你设计和优化自动化流水线覆盖安全扫描、缓存、部署、OIDC/secrets、GitHub Actions、GitLab CI 等。能力写 CI/CD 流水线优化流水线速度排查流水线失败原因加缓存、安全扫描、制品上传、Docker 镜像构建设计多环境发布流程管理流水线中的密钥何时用新项目搭建自动化构建每次发版靠人工操作CI 跑得慢、测试 flaky想加入安全扫描想把测试、构建、部署串起来怎么用“我们是 Python 项目用 GitLab CI想实现测试、构建 Docker 镜像、推送镜像、部署到 K8s请帮我写流水线。”“这是我们的 GitHub Actions每次跑 30 分钟帮我分析怎么提速。”“帮我在现有 CI 里加入依赖漏洞扫描、镜像扫描和 secret 扫描。”06 | GitHub Actions Workflow地址https://agent-skills.md/skills/aj-geddes/useful-ai-prompts/github-actions-workflow简介专门写 GitHub Actions 工作流用于测试、构建、安全扫描、发布和部署。能力写.github/workflows/*.yml配置 push / pull request 触发配置 job、step、matrix 多版本测试配置依赖缓存、artifact、secrets配置发布和部署流程何时用代码托管在 GitHub想让 PR 自动跑测试、main 分支自动构建镜像想自动发布 npm / PyPI / Docker 镜像想控制不同分支触发不同流程怎么用“我的项目是 Node.js请帮我写一个 GitHub ActionsPR 跑测试main 分支构建 Docker 镜像。”“帮我给这个 workflow 加缓存让 npm install 不要每次都重新下载。”“帮我检查这个 GitHub Actions 有没有权限过大或泄露 secret 的风险。”07 | Monitoring Observability地址https://agent-skills.md/skills/ahmedasmar/devops-claude-skills/monitoring-observability简介帮你设计监控、告警、日志、链路追踪让系统出问题时能看得见、找得到、说得清。能力设计服务应监控的指标写 Prometheus 告警规则设计 Grafana dashboard分析日志、链路追踪计算 SLO、error budget优化告警减少“狼来了”分析监控成本何时用新服务上线前不知道该监控什么系统出问题但监控看不出原因告警太多、dashboard 很乱接口变慢不知道慢在哪想引入 OpenTelemetry 或 SLO怎么用“我们有一个订单服务请帮我设计上线前必须配置的监控指标、告警规则和 dashboard。”“现在告警太多请帮我判断哪些应该保留哪些应该降级或删除。”“这是最近 1 小时的错误日志帮我分析可能的问题模式。”08 | SRE Engineer地址https://agent-skills.md/skills/Jeffallan/claude-skills/sre-engineer简介帮你从“救火式运维”升级到“可靠性工程”包括定义 SLO、管理故障预算、减少重复人工操作。能力定义服务可靠性目标设计 SLI / SLO计算 error budget梳理 on-call 机制减少重复运维工作容量规划、混沌工程实验平衡“稳定性”与“发布速度”何时用线上经常出故障但没有可靠性指标运维每天做重复手工活告警很多但不一定影响用户想建立 SRE 体系从“事后修”变成“提前治理风险”怎么用“我们有一个支付服务请帮我设计 SLI、SLO 和 error budget。”“我们团队有很多重复运维工作请帮我识别哪些可以自动化并排优先级。”“我们经常因发布导致故障请帮我设计一个 SRE 视角的发布稳定性方案。”09 | Incident Triage地址https://agent-skills.md/skills/benreceveur/claude-workflow-engine/incident-triage简介线上故障时帮你快速分诊发生了什么、影响多大、该找谁、下一步怎么处理。能力看告警内容、日志片段提取关键信号判断影响范围整理事件时间线给出初步处置建议判断是否要升级辅助值班交接生成复盘模板何时用线上突然报警值班同学不知道先看哪里事故信息散落在日志、监控、群聊里需要快速判断影响范围交接班时怕遗漏信息怎么用“这是告警内容和最近 30 分钟日志请帮我做事件分诊判断影响范围、可能原因和下一步处理建议。”“这是故障处理过程请帮我整理一条事件时间线。”“帮我把这次 on-call 交接内容整理成接班人能看懂的格式。”10 | Postmortem地址https://agent-skills.md/skills/lyndonkl/claude/postmortem简介故障结束后帮你写无责复盘找根因、列改进项、明确负责人和截止时间。能力整理故障复盘、根因分析用 5 Whys 追问原因用鱼骨图拆问题区分直接原因和系统性原因生成改进项并分配 owner 和截止时间沉淀 lessons learned何时用故障已恢复需要复盘避免复盘变成“甩锅大会”需要给管理层看事故报告需要沉淀行动项防止问题再次发生发生了 near miss差点出大事故怎么用“这是本次事故的时间线、影响范围和处理过程请帮我写一份无责复盘。”“帮我用 5 Whys 分析这次数据库连接耗尽事故的根因。”“这是复盘初稿帮我改成更清晰、更可执行的 postmortem并补充改进项。”