软件系统性能常见方法论(IT系统容量评估方法论)

在IT行业的发展过程中,先有传统行业,后出现了互联网行业传统行业的特点为:业务抽象度高,重用率高,流程复杂,中心化管理互联网行业的特点为:业务水平,垂直拆分,模块化,职责单一,功能简单,敏捷交付,非功能性质量要求高,我来为大家科普一下关于软件系统性能常见方法论?下面希望有你要的答案,我们一起来看看吧!

软件系统性能常见方法论(IT系统容量评估方法论)

软件系统性能常见方法论

在IT行业的发展过程中,先有传统行业,后出现了互联网行业。传统行业的特点为:业务抽象度高,重用率高,流程复杂,中心化管理。互联网行业的特点为:业务水平,垂直拆分,模块化,职责单一,功能简单,敏捷交付,非功能性质量要求高。

通常软件架构设计分为需求分析整理,概要设计,详细设计三个阶段,每个阶段任务如下:

  • 需求分析整理阶段:针对用例和场景,抽象出系统面向的用户和角色。梳理用户和角色应该提供的功能需求,非功能质量需求和限制。
  • 概要设计阶段: 基于需求对整个系统进行模块划分,并定义模块之间的关系和交互。
  • 详细设计:通过视图的方式来描述系统架构。视图包括:数据视图,逻辑视图,开发视图,进程视图,物理视图,性能视图,安全视图。

一. 架构权衡分析法(ATAM)

架构权衡分析法(Architecture Tradeoff Analysis Method,ATAM)为行业通用的实践方法,该方法揭示架构满足特定质量目标的情况,使得我们认识到目标与质量之间的权衡和制约。通用的非功能质量指标包括:高可用,高性能,可伸缩,可扩展,安全性,稳定性,可维护性,可测试性,健壮性等。

非功能质量指标

描述

高性能

运行效率高,性价比高,通常指单节点吞吐量和响应时间

高可用

持续可用性,缩短宕机时间,出错恢复,可靠性

可伸缩性

垂直,水平伸缩

可扩展性

可插拔,组件重用,新业务,新功能叠加

安全性

数据安全,加密,熔断,防攻击

可监控性

快速发现,定位和解决问题

可测试性

可灰度,可预览,可Mock,可拆解,QA测试,准生产测试

鲁棒性

容错性,可恢复性

可维护性

易于维护,监控,运营和扩展

可重用性

模块化,可移植性,解耦

易用性

可操作性

非功能性质量需求的具体指标针对不同的系统主要分4部分:应用服务器,数据库,缓存和消息队列。

1. 应用服务器

序号

部署结构

容量性能指标

1

负载均衡策略

每天请求量

2

高可用策略

各接口访问峰值

3

I/O模型

平均的请求响应时间

4

线程池模型

最大的请求响应时间

5

线程池中的线程数量

在线用户量

6

是否多业务混合部署

请求的大小

7

网卡的IO流量

8

磁盘的IO负载

9

内存的使用情况

CPU的使用情况

2. 数据库

关注吞吐量,每天数据总量

序号

部署结构

容量性能指标

1

复制模型

当前的数据容量

2

失效转移策略

每天的数据增量

3

容灾策略

每秒的读/写峰值

4

归档分离策略

每秒的事务量峰值

5

分库分表策略

查询是否走索引

6

静态数据是否启用缓存

有没有大数据量的查询和范围查询

7

穿透缓存方案

有没有多表关联,关联是否用到索引

8

缓存预热策略

有没有使用悲观锁,是否可以改为乐观锁,行级锁。

9

事务的一致性级别

10

JDBC数据源类型及连接数配置,诊断日志是否开启

11

有没有存储过程

12

伸缩策略(分区表,自然时间分表,水平分库分表)水平分表的实现方法(客户端,代理,nosql)

3. 缓存

根据应用层的访问量和访问峰值,通过评估热数据的占比,计算缓存资源的大小并估算缓存资源的峰值,由此来计算缓存资源的数量,部署结构,高可用方案等。

序号

部署结构

容量和性能指标

1

复制模型

缓存内容大小

2

失效转移

缓存内容的过期时间

3

持久策略

缓存的数据结构

4

淘汰策略

每秒的读、写 峰值

5

线程模型

冷热数据比例

6

预热方法

分布式锁

7

哈希分片策略

缓存分片方法(客户端,代理,集群)

8

是否有大对象

9

是否有可能缓存穿透

4. 消息队列

序号

部署结构

容量和性能指标

1

复制模型

每天平均的数据增量

2

失效转移

消息持久的过期时间

3

持久策略

每秒的读、写峰值

4

每条消息大小

5

平均延迟

6

最大延迟

7

消费者线程池模型

8

哈希分片策略

9

消息的可靠投递

10

消费者的处理流程和持久机制

二. 技术评审提纲

  • 现状
  1. 业务背景:项目名称,业务描述
  2. 技术背景:架构描述,当前系统容量(系统调用量的平均值,请求响应时间的平均值,峰值,最大最小值等 )
  • 需求

1. 业务需求:要改造的内容,要实现的新需求

2. 性能需求:预估系统容量(预估系统调用量平均值,平均响应时间),安全性,可伸缩性。

  • 方案描述

1.概述:一句话概括方案亮点:双写,迁移,主从分离,分库分表,扩容,归档,接口改造。

2.详细说明:结合各种视图(UML,概念图,框图)表明改造方案,突出变动的地方。

  • 中间件架构:应用服务器,数据库,缓存,消息队列
  • 逻辑架构:模块划分,模块通信,信息流,时序
  • 数据架构:数据结构,数据分布,拆分策略,缓存策略,读写分离策略,查询策略,数据一致性策略。
  • 异常处理,容灾策略,灰度发布,上线方案,回滚方案。

3.性能评估

  • 给出方案基准数据,并按性能需求评估需要使用的资源数量
  • 单机并发量,容量,吞吐量峰值。
  • 根据性能需求,评估资源数量,伸缩方式等部署结构。
  • 方案的优点缺点,方案对比
  • 风险评估
  • 工作量评估

三. 系统评估案例

备注:如下数据基准仅做案例演示。

3.1 背景

数字家庭管理平台两个质量需求。

  • 1.第三方系统信息查询,复位重启接口频繁调用。
  • 2.ihdmgr,apmgr进行分布式部署,日志检索耗时费力。

3.2 目标数据量级

  • 智能网关,机顶盒,智能组网设备合计800万,平均每天增长1.2万。
  • 平均每天装,撤,拆,移工单2.4万单,下单集中在8:00~19:00,占比80%。

3.3 量级评估标准

  • 通用标准

容量:按照峰值的3倍进行冗余设计。

业务开通容量:时效性较强,按照2年计算,转储设计。

第三方查询接口:吞吐量为1000/S.

  • mysql

单端口读:1000/S

单端口写:700/S

单表容量:5000万条。

  • Redis

单端口读:40000/S

单端口写:40000/S

单端口内存容量:32GB

  • Kafka

单机读:30000/S

单机写:5000/S

  • web 服务器

请求量的峰值:200/S

3.4 方案

方案一. 最大性能方案

无法预估第三方的调用行为,假设提供最快的响应时间,最大的服务性能。

  • 整体流程:

提供RESTful 服务来查询终端信息。

提供RESTful服务来重启对应终端。

  • 数据库资源评估
  • 读操作吞吐量:

按照1%的终端用户存在潜在查询需求,且集中在9:00-19:00 这10个小时内。冗余按照3倍设计。

(800w*0.01)/(10*60*60)*3=2.23*3=7/s

mysql单端口完全够用。

  • 写操作吞吐量:

复位重启后,10条参数需要重新下发,1%的终端用户存在潜在复位重启需求,且集中在9:00-19:00 这10个小时内。冗余按照3倍设计。

(800w*0.01*10)/(10*60*60)*3=22.3*3=70/s

mysql 单端口完全够用。

  • 数据容量:

当前800万用户,1%复位重启,每个用户下发10条参数,3倍冗余,单表容量5000万,2年后下发参数条目数及所需表数量计算如下:

(800w*0.01*365*2年)*10条*3倍=17亿条/0.5亿=34张。

根据以上读写吞吐量评估,如果读写分离,主从部署,需要1主1从,如若考虑主备,则需要2主2从。34*2=68张表,考虑将来端口扩展不拆分数据库,尽量设计更多的库,比如使用16个库。设计结果:2端口*16库*2表。

  • 缓存资源评估

为了提升查询效率,需要redis缓存活跃终端的基本信息,定义近一天和平台有联系的终端(40%)为活跃终端,缓存24小时,每条终端信息为1KB, 冗余3倍设计,缓存大小计算如下:

800w*0.4*1KB=3.2GB*3=9.6G.

1台机器32G,读写满足5000/S, 所以设计结果为1台。

  • 应用服务器评估

根据数据库读写7/S, 70/S的峰值计算,单台应用服务器即可,选择两台可避免单点故障。

设计结果2台。

所以最大性能设计方案最终需要服务器:

数据库2台 缓存服务器1台 应用服务器1台=4台。

方案二. 最小资源方案

请求量暂时无法评估,最小资源方案可节省成本,目前测算单台容量足够承载。

数据库1台 应用服务器1台=2台。

四. 常用的系统层性能指标参考标准

  • 寄存器和内存
  1. 寄存器,L2,L3,内存,分支预测失败,互斥量加锁和解锁等耗时为纳秒级别
  2. 内存随机读取可达30万次/s,顺序读取可达500万次/s
  3. 内存每秒可读取GB级别的数据。
  4. 读取内存中1MB的数据为250ns,为亚毫秒级别。
  • 硬盘
  1. 普通SATA机械盘IOPS能达到120次/S
  2. 普通SATA机械盘顺序读取数据可达100MB/S,读取1MB 数据20ms
  3. 普通SATA机械盘随机读取数据可达2MB/S
  4. 普通SATA机械盘旋转半圈需要3ms
  5. 普通SATA机械盘寻道需要3ms
  6. 普通SATA机械盘寻道后开始读取数据,读取一次数据真正耗时2ms
  7. fusionIO卡(一种高的ssd硬盘套件)可达到百万级别的IOPS,
  8. 高端机器如ibm,华为等服务器上的高端存储设备,每秒GB级别的数据读取,相当于内存的读取速度。
  9. 固态硬盘访问延迟:0.1-0.2ms,和内存速度相当。
  • 网络IO
  1. 常见千兆网卡传输速度为1000Mbit/S, 即128MB/S
  2. 千兆网卡读取1MB数据,10ms。
  • 数据库
  1. 通常读取一条记录在毫秒级别,短则几毫秒,大于500ms一般为超时。
  2. mysql在4核心,256G内存中性价比最好,继续垂直扩展由于体系结构限制,成本开始增加,性价比开始降低。
  • IDC
  1. 同一机房网络来回:0.5ms
  2. 异地机房来回:30~100ms
  3. 同一机房RPC服务调用为几个毫秒,500ms为超时。
  • 网站:
  1. UV:每日一共有多少用户来访,用cookie session跟踪。
  2. 独立ip访问:每日有多少独立ip来访,同一个局域网可以看成一个ip
  3. pv:每日单独用户的所有页面访问量,如果每日uv为50000 000,那么每秒平均在线人数为:50000 000/24/60/60=578人。如果每秒都做一次查询,则需要一个能承载578/S吞吐量的机器。
  • 组合计算:
  1. 普通机械盘:3ms 旋转 3ms 寻到 2ms读取延迟=8ms
  2. 普通sata机械盘每秒随机读取:1000ms/8ms= 125次 IOPS.
  3. IOPS代表每秒可随机寻址次数,随机读取速度取决于数据如何存放,如果按照块存放,每块4KB,每次读取10块,那么随机读取速度为:10*4KB*125次/S=5MB/S
  4. 一次读取内存时间:1000ms/30万次/S=3ns
  5. cpu速度=10倍*内存速度=100倍*IO速度
,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页