advisor新工作 1张表覆盖Advisor巡检问题
Advisor巡检问题如下表所示。
分 类 |
子 分 类 |
巡 检 项 |
可用性及容灾 |
EIP |
EIP地址是否采用自建BGP网段 |
EIP |
EIP网络不通,是否存在所在集群容灾切换失败问题 | |
EIP |
是否绑定不同运营商的EIP,以备故障时容灾 | |
负载均衡 |
负载均衡是否受到外网波动导致无法访问 | |
负载均衡 |
多个负载均衡实例,尤其是同业务,是否落点在同一个负载均衡集群中 | |
VIP |
内网VIP地址是否存在跨VPC访问不通的情况 | |
NAT网关 |
客户的NAT网关的conntrack的五元组端口连接数是否偏高 | |
VPN |
客户IT架构是否存在VPN线路(专线接入/IPsec VPN/SD-WAN) | |
VPN |
用户端VPN线路是否为双线路(包括物理专线或IPsec VPN) | |
API |
客户API日报/月报显示API成功率是否有异常波动 | |
API |
用户业务主机调用第三方业务API接口是否因为解析到跨地域节点导致延迟 | |
Redis |
Redis是否存在凌晨时段的I/O波动问题 | |
云数据库 |
云数据库的搜索引擎是否采用了非Innodb引擎 | |
云数据库 |
自建数据库或云数据是否采用高可用架构 | |
云数据库 |
云数据库业务场景是否采用了缓存架构/连接池技术架构 |
续表
分 类 |
子 分 类 |
巡 检 项 |
可用性及容灾 |
混合 |
用户自建/托管第三方IDC是否因为大网抖动导致公有云/托管区之间调用延迟不稳定 |
云主机 |
云主机部署业务是否考虑了高可用架构及解决方案 | |
云主机 |
云主机部署业务是否没有合理使用主机特性及选型 | |
容灾 |
是否考虑机房级别严重故障下的容灾建设 | |
宿主机 |
是否存在老化严重或多次宕机过的宿主机 | |
宿主机 |
在现有故障率的基础上,建议通过应用层面的高可用来规避该风险。如业务集群高可用架构,主备架构实现高可用 | |
托管 |
托管类客户是否采用了高可用架构设置,是否存在单点风险 | |
托管 |
托管机柜是否存在超电记录 | |
数据中心 |
用户所在机房的交换机/服务器等是否存在单电源,是否会引发单点故障 | |
弹性性能 |
EIP |
带宽是否能满足客户业务峰值的需要 |
EIP |
EIP申请批量过多导致配额受限,是否会导致扩容受阻 | |
EIP |
EIP是否存在突发流量占满带宽,导致访问超时等问题 | |
存储备份 |
是否考虑对存储备份数据建立分级备份管理机制 | |
负载均衡 |
负载均衡单个实例带宽是否超过4Gbps | |
负载均衡 |
单个负载均衡实例是否超出性能瓶颈 | |
资源 |
是否已经建立IT资源的弹性伸缩策略 | |
NAT网关 |
NAT网关现有性能是否接近性能瓶颈 | |
Redis |
Redis前端是否采用连接池技术 | |
Redis |
Redis是否存在分布式版本容量小于32GB的场景 | |
云数据库 |
云数据库是否针对表进行了索引设置 | |
云数据库 |
在使用数据库的场景中,是否存在频繁使用“SELECT FOR UPDATE”语句的操作习惯 | |
云数据库 |
在使用数据库的场景中,是否存在频繁使用“SELECT *”的操作习惯 | |
综合 |
用户业务是否属于I/O密集型业务 | |
是否多云 |
用户业务架构是否存在跨公有云、物理云的形式,各自的网关是否存在网络性能瓶颈 | |
CDN |
是否采用CDN等加速缓存产品加速系统访问速度 | |
云主机 |
同等硬件规格的主机的性能是否一致 | |
本地硬盘 |
主机是否使用了本地硬盘?是否根据业务合理选择硬盘的使用方式 | |
隔离拆分 |
专线接入 |
是否有专线接入 |
Redis |
Redis是否存在多应用共用单实例场景 | |
综合 |
业务系统与产品系统、产品智能与数据库系统是否混杂使用 | |
综合 |
是否拥有产品灰度测试区,还是发布也在线上环境进行 |
续表
分 类 |
子 分 类 |
巡 检 项 |
隔离拆分 |
综合 |
灰度测试区和线上区域是否存在共用底层资源的情况 |
分布式系统 |
业务分布式系统是否采用异步方式设计 | |
读写分离 |
针对读写压力比较大的场景,是否开启了读写分离功能 | |
云数据库 |
用户云数据库使用场景是否要求性能独享独占 | |
云数据库 |
用户业务是否存在直连云数据库实例IP的场景 | |
CDN |
CDN加速网站是否做到动静拆分、多域名隔离接入 | |
云数据库 |
用户同一数据库是否承载多交互业务数据 | |
云数据库 |
用户同一数据库同一表单数据过大,是否会导致运行缓慢 | |
云主机 |
是否存在核心的或同业务的云主机位于同一台宿主机的情况 | |
云主机 |
是否对云主机的CPU、磁盘I/O、包量等指标有特殊要求 | |
监控完善 |
EIP |
核心业务EIP是否部署了网络质量监测 |
监控告警 |
同一个业务集群是否做好了性能基线监控 | |
监控告警 |
是否已建立针对基础资源/系统指标/业务指标等不同层级的监控告警系统 | |
负载均衡 |
负载均衡就带宽/连接数等是否设置了云监控与告警?告警值是否合理 | |
负载均衡 |
负载均衡所在集群是否存在性能瓶颈 | |
对象存储 |
使用对象存储是否会出现由负载变高等问题引起的上传下载延迟问题 | |
对象存储 |
使用对象存储上传下载文件的速度是否太慢 | |
Redis |
Redis是否采用短链接方式 | |
Redis |
Redis是否设置了告警 | |
日志存储分析 |
是否将所有业务系统底层资源纳入统一日志存储分析平台 | |
Redis |
Redis的QPS是否存在性能瓶颈问题 | |
Redis |
Redis是否存在慢查询问题 | |
监控告警 |
是否通过云监控实现云数据库的监控和告警 | |
云数据库 |
云数据库是否存在从库频繁延迟的情况 | |
云数据库 |
云数据库的磁盘使用率是否超限,是否存在空间不足的风险 | |
云数据库 |
云数据库业务场景中是否存在批量任务 | |
云数据库 |
云数据库业务场景中是否存在长任务(大事务) | |
云数据库 |
云数据库实例使用的CPU核数是否经常维持在较高水平 | |
监控告警 |
是否已经安装监控Agent | |
硬件 |
RAID卡是否存在故障风险 | |
硬件 |
RAID卡的软件驱动版本是否过老 | |
硬件 |
硬盘是否存在硬件故障 | |
硬件 |
物理云主机的RAID固件版本是否过低 |
续表
分 类 |
子 分 类 |
巡 检 项 |
监控完善 |
监控告警 |
用户GPU主机是否安装了Agent,是否对温度设置了告警 |
硬件 |
云主机所在宿主机器RAID卡出现故障重启 | |
安全覆盖 |
EIP |
EIP网络和端口不通,是否存在安全封堵IP的可能 |
VPN |
是否采用云主机自建VPN | |
数据中心 |
机房核心入口设备是否存在断链风险 | |
数据中心 |
用户所在机房的其他用户IP被DDoS攻击,是否影响用户业务 | |
密码 |
是否修改了默认的备份用户密码 | |
云数据库 |
用户在线使用云数据库是否存在版本过低等问题 | |
云数据库 |
用户业务场景是否存在要求数据强一致性同步的场景,如金融行业等 | |
物理云主机 |
物理云主机是否超过维保服务期限 | |
密码 |
用户所用架构中的登录密码是否过于简单 | |
防火墙 |
用户所用架构中涉及的产品是否没有进行防火墙策略等安全加固 | |
镜像 |
用户所用架构中的主机资源是否采用了镜像快照功能 | |
数据方舟 |
用户所用架构中的主机资源是否开启了数据方舟功能 | |
SSL证书 |
用户所用架构中的业务是否采用了HTTPS访问方式,是否部署了SSL证书加密 | |
防火墙 |
用户所用架构中的云产品是否关联防火墙 | |
备份回滚 |
核心业务系统是否制定了完善的定期备份、回滚应急策略 | |
审计 |
用户所用架构中是否使用了入口审计产品 | |
主机安全 |
用户所用架构中是否使用了主机安全防护产品 | |
DDoS |
用户所用架构中是否经常遭受DDoS攻击 | |
密码 |
用户所用架构中的登录密码是否集中管控,还是所有资源都采用同一套密码 | |
计费 |
用户账户余额是否充足?是否足够在下一个续费周期内满足续费需求 | |
托管 |
托管类客户是否采用了入口的IPS等安全设备 | |
托管 |
托管类资源是否定期进行硬件巡检 | |
托管 |
托管业务的网关是否放在了PE设备上 | |
托管 |
托管机柜放置的服务器数量过多,是否会导致机柜电量过载 | |
CDN |
CDN产品是否开通海外HTTPS加速?用户是长期使用还是短期测试 | |
CDN |
CDN产品用户业务是否存在类似cc攻击的单位时间频繁访问等场景 | |
CDN |
业务场景对安全方面是否有特殊需求?如黑白名单/访问限频等 |
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com