Will Percey — Portfolio

Chaos Engineering

> > Updated Dec 2025

science

Chaos Engineering Principles

Definition & Purpose

Building confidence through controlled experiments. Proactively discovering weaknesses before they impact users. Scientific method applied to systems. Hypothesis-driven experimentation. Learn from turbulence in production. Improve system resilience. Netflix Chaos Monkey origin. Move from reactive to proactive. Validate assumptions about system behavior. Build confidence in distributed systems. Uncover unknown failure modes. Engineering discipline, not random breaking.

Similar Technologies

Hope and PrayReactive FirefightingTesting OnlyManual VerificationAssume Reliability

Steady State Hypothesis

Defining normal system behavior metrics. Baseline metrics before experiment. Requests per second, error rate, latency (P99). Business metrics (orders, conversions). System health indicators. Hypothesis: steady state continues during chaos. Measure deviation during experiment. Automated validation. Observable system required. Dashboards and alerts. Multiple metrics for confidence. Foundation of chaos experiment. Success = maintaining steady state despite failures.

Similar Technologies

No BaselineManual ObservationGut FeelSingle MetricNo Hypothesis

Blast Radius

Limiting experiment scope and impact. Start small: single instance, single region. Gradually increase scope. Percentage of traffic affected. Subset of users. Canary deployments for chaos. Automatic rollback triggers. Emergency stop mechanism. Contains damage from failed experiments. Builds confidence incrementally. Production chaos with minimal risk. Increase blast radius as confidence grows. Full production only after validation.

Similar Technologies

All or NothingProduction-WideNo LimitsTesting OnlyNo Containment

Principle of Least Chaos

Minimal disruption for maximum learning. Smallest possible perturbation to discover issue. Don't break system to prove it breaks. Graceful degradation over catastrophic failure. Start with minor latency, not complete outage. Incremental failure injection. Learn cheaply. Avoid unnecessary customer impact. Scientific rigor. Single variable experiments. Isolate causes. Build intuition before large experiments. Respect production systems.

Similar Technologies

Maximum ChaosBreak EverythingRandom FailuresExcessive DisruptionSledgehammer Approach

Production Testing

Chaos must run in production environment. Staging doesn't capture production complexity. Real traffic, real scale, real dependencies. Production validates actual behavior. Uncover emergent properties. Realistic failure modes. Test in the environment that matters. Start with small blast radius. Requires confidence in observability. Automated rollback essential. Netflix pioneered this. Some companies uncomfortable with prod chaos. Simulated prod environments acceptable initially.

Similar Technologies

Staging OnlyTesting EnvironmentsNo Production TestingSynthetic LoadPre-Production Only

Cultural Prerequisites

Psychological safety and blameless culture required. Learning organization mindset. Embrace failure as learning opportunity. No punishment for finding issues. Incident retrospectives (not post-mortems). Celebrate discovered weaknesses. Management support essential. Blame inhibits chaos adoption. Trust in teams. Experimentation encouraged. Google SRE philosophy. Etsy blameless culture. Foundation for chaos practice. Without this, chaos engineering fails.

Similar Technologies

Blame CultureFear of FailureHero CulturePunitive ResponseHide Problems

bug_report

Failure Injection Techniques

Resource Exhaustion

CPU, memory, disk space, file descriptors exhausted. Stress-ng for CPU/memory stress. Fill disk with large files. Open file descriptors until limit. Memory leaks simulation. CPU spinning processes. Disk I/O saturation. Network bandwidth saturation. Test autoscaling triggers. Validate resource limits. OOMKiller behavior. Throttling mechanisms. Resource quotas effectiveness. Monitoring alert validation. Recovery after resource restoration.

Similar Technologies

No Resource TestingLoad Testing OnlyAssume Enough ResourcesManual ChecksSynthetic Tests

Network Failures

Latency injection, packet loss, connection failures. Toxiproxy, Comcast for network manipulation. Increase latency (50ms, 200ms, 2s). Random packet drops (5%, 20%). Connection timeouts. DNS resolution failures. Intermittent connectivity. Asymmetric failures (send works, receive fails). Network partitions. Simulate slow networks. CDN failures. Cross-region latency. Test timeouts and retries. Circuit breaker activation.

Similar Technologies

Assume Network ReliableNo Network TestingSynthetic TestsUnit Tests OnlyPerfect Network

Service Failures

Shutting down instances, killing processes abruptly. Random instance termination (Chaos Monkey). Process kills (kill -9). Container restarts. Pod deletions in Kubernetes. Service unavailable responses. Graceful vs abrupt shutdowns. Rolling updates gone wrong. Health check failures. Load balancer response. Auto-scaling triggers. Test high availability. Validate redundancy. Single point of failure discovery.

Similar Technologies

Planned Downtime OnlyNo Instance FailuresAssume HA WorksManual FailoverPerfect Uptime

Dependency Failures

External service unavailability simulation. Database down, API unavailable, cache failure. Third-party service failures. Payment gateway down. Authentication service unavailable. Microservice dependency failures. Slow dependency responses. Partial dependency failures. Fallback mechanism validation. Circuit breaker testing. Graceful degradation verification. Retry logic testing. Queue backup behavior. Cascading failure prevention.

Similar Technologies

Assume Dependencies AvailableMock Testing OnlyNo Dependency TestingPerfect IntegrationIgnore Failures

Data Corruption

Introducing invalid or malformed data. Corrupt database records. Invalid message formats. Schema mismatches. Encoding issues (UTF-8 problems). Null values in unexpected places. Special characters. Injection attack payloads. Large payloads. Empty responses. Truncated data. Test validation logic. Error handling robustness. Data integrity checks. Sanitization effectiveness. Recovery mechanisms.

Similar Technologies

Trust All DataNo Validation TestingSchema Enforcement OnlyAssume Valid DataNo Edge Cases

Clock Skew & Time Issues

Time synchronization issues and drift. NTP failures. Clock skew between services. Timezone issues. Leap seconds. Daylight saving time. System time jumps. Time going backwards. Certificate expiration. Token expiration. Time-based features (TTL, timeouts). Distributed systems coordination. Log correlation issues. Metrics timestamps. Test time dependencies. Validate NTP monitoring.

Similar Technologies

Assume Synchronized TimeNo Time TestingManual VerificationTrust System ClocksIgnore Time Issues

build_circle

Chaos Engineering Tools

Chaos Monkey (Netflix)

Random instance termination during business hours. Simian Army suite (Chaos Monkey, Kong, Gorilla, etc.). Terminating EC2 instances randomly. Kubernetes pod chaos monkey. Forces engineers to build resilient systems. Automated, scheduled chaos. Opt-in or opt-out models. Netflix open-sourced Simian Army. Now Chaos Toolkit and Spinnaker. Pioneered chaos engineering field. Cultural icon. Foundation of many tools.

Similar Technologies

Manual TestingControlled FailuresNo AutomationGremlinLitmus Chaos

Chaos Kong

Region-wide failure simulation. Entire AWS region taken down. Ultimate chaos test. Validates multi-region architecture. Disaster recovery validation. Failover mechanisms tested. Netflix's most aggressive chaos. Annual exercise. Tests business continuity. Global traffic routing. Database replication. State synchronization. Few companies ready for this. Requires mature chaos practice. Ultimate test of resilience.

Similar Technologies

Instance FailuresAZ FailuresService FailuresNo Regional TestingDR Drills

Gremlin

Commercial chaos engineering platform. SaaS and on-premises. User-friendly UI for chaos experiments. Resource attacks, state attacks, network attacks. Scheduled experiments. Halt experiments. Status pages. Metrics integration. Gameday coordination. Role-based access control. Compliance and audit logs. Attack library. Documentation and tutorials. Enterprise support. Alternative to building custom tools. Lowers adoption barrier.

Similar Technologies

Open Source ToolsDIY SolutionsAWS FISAzure Chaos StudioLitmus Chaos

Litmus Chaos

Kubernetes-native chaos engineering. CNCF sandbox project. ChaosEngine, ChaosExperiment CRDs. Chaos experiments as YAML. Pod delete, container kill, network chaos. Node chaos, IO chaos. Hypothesis validation. Chaos workflows. Chaos center for observability. Community chaos experiments hub. GitOps friendly. Argo Workflows integration. Open source. Cloud-native focus. Growing community.

Similar Technologies

Chaos MeshChaos ToolkitGremlinAWS FISPumba

AWS Fault Injection Simulator (FIS)

Managed chaos service from AWS. Inject failures into AWS services. EC2, ECS, EKS, RDS disruptions. Network latency, CPU stress. Pre-configured actions. Custom actions via SSM. Stop conditions for safety. CloudWatch integration. IAM permission management. Pricing per experiment. Integrated with AWS ecosystem. No infrastructure to manage. Regional availability. Alternative to third-party tools on AWS.

Similar Technologies

GremlinChaos ToolkitDIY ToolsLitmusAzure Chaos Studio

Azure Chaos Studio

Microsoft's chaos engineering service. Managed chaos for Azure resources. Target VMs, AKS, Cosmos DB. Fault library for common failures. Custom faults via agent. Experiments with multiple steps. Safety mechanisms (stop conditions). Azure RBAC integration. Monitor experiments via Portal. Pricing per experiment run. Native Azure integration. Still evolving. Alternative for Azure-centric organizations.

Similar Technologies

GremlinAWS FISLitmusChaos ToolkitDIY Solutions

labs

Experiment Design & Execution

Hypothesis Formation

Defining expected system behavior under failure. If we introduce failure X, system will maintain steady state. Specific, testable hypothesis. Based on architecture understanding. Example: If database fails, system serves cached data with <5% error rate increase. Measurable outcomes. Success/failure criteria. Foundation of scientific approach. Document assumptions. Learn whether hypothesis confirmed or refuted. Iterate based on learnings.

Similar Technologies

No HypothesisVague ExpectationsJust Breaking ThingsExploratory OnlyGut Feeling

Experiment Scoping

Choosing targets and blast radius carefully. Which service, which instance, which region. Percentage of traffic affected. Time window for experiment. Specific failure mode. Single variable changed. Avoid multiple simultaneous changes. Production subset initially. Gradually expand scope. Define out-of-scope systems. Safety boundaries. Stakeholder notification. Change windows. Balance learning with risk.

Similar Technologies

Break EverythingNo PlanningRandom SelectionMaximum ChaosUndefined Scope

Observability Setup

Metrics, logs, traces for experiment monitoring. Pre-experiment baseline collection. Real-time dashboards during experiment. Application metrics (latency, errors, throughput). Infrastructure metrics (CPU, memory, network). Business metrics (orders, conversions). Distributed tracing for dependency chains. Log aggregation for error patterns. Anomaly detection. Alert suppression during experiment. Post-experiment analysis. Without observability, chaos is blind.

Similar Technologies

Manual ObservationLimited MetricsNo MonitoringLogs OnlyGut Feel

Rollback Strategy

Emergency shutdown and recovery procedures. Automated rollback triggers. Manual stop button. Conditions for abort (error rate threshold). Rapid recovery process. Restore service quickly. Rollback vs roll forward. Blast radius containment. Stakeholder notification plan. Incident response integration. Post-experiment cleanup. Test rollback procedure itself. Confidence to run experiments. Safety net essential for production chaos.

Similar Technologies

No RollbackHope for BestManual Recovery OnlyWait it OutNo Abort Plan

Progressive Experiments

Starting small and expanding scope gradually. Single instance → multiple instances → AZ → region. 1% traffic → 10% → 50% → 100%. Dev → staging → canary prod → full prod. Increase failure intensity gradually. Build confidence incrementally. Learn before scaling up. Blast radius expansion. Maturity levels. From automated to continuous chaos. Validate at each level. Prevent premature large-scale failures.

Similar Technologies

Big Bang TestingAll at OnceNo ProgressionSkip StepsJump to Production

Automated vs Manual Experiments

Continuous chaos vs periodic GameDays. Automated chaos runs continuously in production. Chaos Monkey style: scheduled, automated. Manual experiments for complex scenarios. GameDays for coordinated testing. Hybrid approach common. Automate common failures. Manual for rare, complex scenarios. Automation scales chaos practice. Manual provides learning opportunities. Runbooks from manual inform automation. Progression from manual to automated.

Similar Technologies

Manual OnlyAutomated OnlyRandom ApproachNo ExperimentationAd-hoc Testing

sports_esports

GameDays & Disaster Recovery Testing

GameDay Planning

Coordinating cross-team resilience exercises. Schedule GameDay (quarterly, semi-annually). Define objectives and scenarios. Invite all stakeholders (dev, ops, support, business). Prepare environment and tools. Communication plan. Roles and responsibilities. Success criteria. Safety measures. Pre-mortem discussion. Simulation vs production. Agenda and timeline. Post-GameDay retrospective. Calendar holds for recovery. Executive support. Make it regular practice.

Similar Technologies

Ad-hoc TestingNo CoordinationSurprise DrillsSolo TestingNo Planning

Scenario Design

Realistic failure scenarios for testing. Region outage, data center loss. Database failure, cache failure. DDoS attack, security incident. Network partition. Multiple simultaneous failures. Cascading failures. Peak load combined with failures. Based on previous incidents. Incident retrospectives inform scenarios. Business impact scenarios. Third-party failures. Chaos scenario library. Rotate scenarios each GameDay. Increasing difficulty over time.

Similar Technologies

Random FailuresSimple FailuresSingle Point FailuresNo ScenariosUnrealistic Tests

Runbook Validation

Testing incident response procedures under pressure. Execute runbooks during GameDay. Find gaps in documentation. Update procedures based on learnings. Automation opportunities identified. Escalation path validation. Communication protocols tested. On-call rotation participation. Muscle memory for incidents. Tools and access verification. Recovery time objectives (RTO) validation. Playbook improvements. Convert tribal knowledge to documentation. Confidence in procedures.

Similar Technologies

Untested RunbooksAssume Runbooks WorkUpdate After Real IncidentNo RunbooksTheory Only

Communication Protocols

Testing escalation and coordination during incidents. Incident commander role. War room coordination. Status updates cadence. Stakeholder notification. External communication (status page). Slack channels, conference bridges. Escalation paths tested. Cross-team coordination. Support team involvement. Customer success engagement. Post-incident communication. Learn communication gaps. Practice under pressure. Refine processes.

Similar Technologies

No Communication PlanAd-hoc CommunicationAssume It WorksEmail OnlyUncoordinated

Post-GameDay Review

Identifying gaps and improvement areas through retrospective. Blameless post-mortem. What went well, what didn't. Action items assigned. Runbook updates. Automation opportunities. Architectural weaknesses discovered. Monitoring gaps identified. Training needs. Celebrate discoveries. Share learnings broadly. Document for next GameDay. Continuous improvement. Metrics tracked over time. Compare GameDays for progress. Culture of learning.

Similar Technologies

No ReviewQuick DebriefBlame SessionIgnore FindingsMove On

Regulatory Compliance Testing

DR validation for audit requirements. HIPAA, SOC 2, PCI DSS compliance. Annual DR testing mandated. Document test results. Restore time verification. Data integrity validation. Compliance officer participation. Audit trail of testing. Meet RTO/RPO requirements. Regulatory reporting. Evidence collection. Third-party auditor observation. GameDays serve compliance needs. Kill two birds with one stone. Make compliance valuable.

Similar Technologies

Checkbox ExerciseMinimal TestingPaper ComplianceNo ValidationFake Tests

groups

Organizational Adoption

Maturity Model

Levels from manual experiments to continuous chaos. Level 1: Ad-hoc manual chaos in non-prod. Level 2: Scheduled chaos in production (small blast radius). Level 3: Continuous automated chaos. Level 4: Chaos as part of CI/CD. Level 5: GameDays and organization-wide practice. Progress through levels deliberately. Each level builds on previous. Measure maturity. Set goals. Netflix at level 5. Most companies at 1-2. Patience required.

Similar Technologies

No StructureAll or NothingRandom AdoptionSkip LevelsNo Progression

Stakeholder Buy-In

Demonstrating value to leadership and gaining support. Executive sponsorship crucial. Business case: reduce downtime, improve resilience. ROI from prevented incidents. Start small, show wins. Share learnings broadly. Incident cost avoided. Customer trust increased. Competitive advantage. Industry examples (Netflix, Amazon). Align with business goals. Address concerns (safety, risk). Gradual education. Celebrate successes publicly. Budget and resources secured.

Similar Technologies

Bottom-Up OnlyNo Leadership SupportStealth ChaosHope They UnderstandNo Business Case

Team Training

Building chaos engineering skills across organization. Chaos champions in each team. Training sessions and workshops. Hands-on labs. Documentation and runbooks. Pair programming chaos experiments. Guest speakers (industry experts). Conference attendance. Online courses. Tool training. Scientific method refresher. SRE principles. Gradual skill building. Mentorship programs. Communities of practice. Knowledge sharing sessions. Reduce fear of chaos.

Similar Technologies

Learn on the JobNo TrainingChaos Team OnlyExternal Consultants OnlyDocumentation Only

Metrics & Reporting

Tracking resilience improvements and building the business case. Mean time to recovery (MTTR) trending. Incident frequency reduction. Severity reduction. Experiments run per week/month. Coverage (% services tested). Findings per experiment. Time to fix findings. Availability improvements. Business impact metrics. Customer satisfaction. Report to leadership. Dashboards and scorecards. Celebrate improvements. Data-driven approach. Justify continued investment.

Similar Technologies

No MetricsAnecdotal EvidenceGut FeelActivity Metrics OnlyNo Reporting

Integration with CI/CD

Automated chaos in deployment pipelines. Pre-production chaos tests. Chaos in staging after deployment. Canary deployments with chaos. Fail deployment if chaos test fails. Regression testing for resilience. Shift-left chaos engineering. Find issues before production. Terraform with chaos tests. Kubernetes deployment with chaos. GitOps with chaos validation. Pipeline gates. Chaos as quality gate. Continuous verification.

Similar Technologies

Manual Chaos OnlyPost-Deployment OnlyNo AutomationSeparate ProcessesNo Integration

Continuous Verification

Always-on chaos in production environment. Chaos Monkey running continuously. Distributed chaos experiments. Low blast radius, high frequency. Build resilience as habit. Catch regressions quickly. Confidence in production. Validate redundancy constantly. Automatic incident creation for failures. Integration with monitoring. Alert if chaos reveals issues. Chaos as canary. Production hardening. Ultimate maturity level. Netflix model. Requires mature operations.

Similar Technologies

Periodic TestingManual GameDays OnlyNo Continuous TestingScheduled OnlyOn-Demand Only