Box 平台快速入门
为验证系统的容错性和可恢复性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用 Box 平台进行故障注入。
步骤一:安装探针
探针主要功能是命令下发通道和数据收集,所以需要在待演练的目标机器或集群中安装探针 进入 Box 主页面,在左侧导航栏中选择概览,在欢迎体验故障演练区域单击安装演练探针。具体操作请参见探针安装指南
步骤二:创建演练
在 AHAS 控制台左侧导航栏中选择 我的空间。
在我的空间页面左上角单击新建演练,然后单击新建空白演练。
在演练配置页面,填写演练名称、演练描述和演练标签。
在配置页签的演练对象区域完成以下配置。
在演练对象页面设置分组名称、资源类型和机器列表等。
说明 机器列表中可以选择一台或多台机器。
单击 + 添加演练内容,然后选择主机内 CPU 满载,然后单击确定。
单击保存,然后单击下一步。
在全局配置页面完成以下配置。
- 选择演练流程为顺序执行。
- 在恢复策略区域单击 + 新增策略,选择 CPU 指标,然后单击确定。
- 设置自动恢复时间为 30 分钟。
单击下一步。
步骤二:执行演练
- 在左侧导航栏中选择故障演练 > 我的空间。
- 在我的空间中单击目标演练任务右侧操作列的演练,然后在开始执行演练对话框中单击确认。可以看出故障开始注入之后,目标机器的 CPU 指标开始增加,说明故障已经生效。
步骤三:停止演练
您可以通过以下两种方式停止演练。
- 自动停止:当演练时间超过自动恢复时间,即可自动停止。可在演练页面保护策略区域查看自动恢复时间,本示例为 30 分钟。
- 手动停止:在演练执行情况区域单击日志。若日志中显示“当前步骤运行结束,需要等待用户确认”信息,则单击脚本方式制造 CPU 满载右侧的继续图标恢复演练。若需直接停止演练,则单击停止图标。
查看演练信息
演练结束后,您可以在演练详情页查看演练时长、演练过程中的 CPU 指标曲线、演练参数和演练日志等信息。
- 滑动鼠标至CPU 指标时序曲线,即可查看某时间点的演练机器的具体 CPU 指标。
- 单击机器信息区域的参数,即可查看脚本方式制造 CPU 满载节点执行参数信息。
- 单击机器信息区域的日志,即可查看演练过程的日志信息。
- 单击页面右上角的查看详情,可查看该演练任务的配置和演练日志信息。