Skip to main content
版本:1.7.3

Box 平台快速入门

为验证系统的容错性和可恢复性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用 Box 平台进行故障注入。

步骤一:安装探针

探针主要功能是命令下发通道和数据收集,所以需要在待演练的目标机器或集群中安装探针 进入 Box 主页面,在左侧导航栏中选择概览,在欢迎体验故障演练区域单击安装演练探针。具体操作请参见探针安装指南

步骤二:创建演练

  1. 在 AHAS 控制台左侧导航栏中选择 我的空间

  2. 我的空间页面左上角单击新建演练,然后单击新建空白演练

  3. 演练配置页面,填写演练名称演练描述演练标签

  4. 配置页签的演练对象区域完成以下配置。image.png

    1. 演练对象页面设置分组名称、资源类型和机器列表等。

      说明 机器列表中可以选择一台或多台机器。

    2. 单击 + 添加演练内容,然后选择主机内 CPU 满载,然后单击确定

    3. 单击保存,然后单击下一步

  5. 全局配置页面完成以下配置。

    1. 选择演练流程顺序执行
    2. 恢复策略区域单击 + 新增策略,选择 CPU 指标,然后单击确定
    3. 设置自动恢复时间为 30 分钟。
  6. 单击下一步

步骤二:执行演练

  1. 在左侧导航栏中选择故障演练 > 我的空间
  2. 我的空间中单击目标演练任务右侧操作列的演练,然后在开始执行演练对话框中单击确认。可以看出故障开始注入之后,目标机器的 CPU 指标开始增加,说明故障已经生效。image.png

步骤三:停止演练

您可以通过以下两种方式停止演练。

  • 自动停止:当演练时间超过自动恢复时间,即可自动停止。可在演练页面保护策略区域查看自动恢复时间,本示例为 30 分钟。image.png
  • 手动停止:在演练执行情况区域单击日志。若日志中显示“当前步骤运行结束,需要等待用户确认”信息,则单击脚本方式制造 CPU 满载右侧的继续图标恢复演练。若需直接停止演练,则单击停止图标。image.png

查看演练信息

演练结束后,您可以在演练详情页查看演练时长、演练过程中的 CPU 指标曲线、演练参数和演练日志等信息。 image.png

  • 滑动鼠标至CPU 指标时序曲线,即可查看某时间点的演练机器的具体 CPU 指标。
  • 单击机器信息区域的参数,即可查看脚本方式制造 CPU 满载节点执行参数信息。
  • 单击机器信息区域的日志,即可查看演练过程的日志信息。
  • 单击页面右上角的查看详情,可查看该演练任务的配置和演练日志信息。