Will Percey — Portfolio

Model Testing

> > Updated Dec 2025

science

Model Testing Fundamentals

Unit Testing for ML

Testing individual components in isolation. Data validation tests (schema, ranges, distributions). Feature engineering function tests. Model input/output contract tests. Transform and preprocessing pipeline tests. Mocking data dependencies. Fast execution for CI/CD. pytest, unittest frameworks. Test data generators for edge cases. Property-based testing with Hypothesis.

Similar Technologies

Integration TestingManual ValidationSmoke TestsContract TestingSchema Validation

Integration Testing

Testing model components together end-to-end. Pipeline integration (data ingestion to prediction). Model serving endpoint tests. Feature store integration validation. Database and external service connections. Training pipeline orchestration tests. Containerized test environments. Test data pipelines. Model registry integration. Kubernetes test namespaces.

Similar Technologies

Unit TestingE2E TestingComponent TestingSystem TestingAcceptance Testing

Model Behavioral Testing

Validating model behavior with specific test cases. Invariance tests (small input changes shouldn't affect output). Directional expectation tests (increasing feature X increases prediction). Minimum functionality tests on known examples. Edge case and boundary testing. Adversarial example testing. Checklist approach from 'Beyond Accuracy' paper. Great Expectations for data. Behavioral test suites.

Similar Technologies

Performance TestingAccuracy TestingManual TestingStatistical TestsA/B Testing

Data Quality Testing

Validating input data quality and integrity. Schema validation (types, columns, constraints). Distribution checks (mean, std, outliers). Missing value detection and handling. Data drift detection (training vs production). Great Expectations, Deequ, TFX Data Validation. Statistical tests (KS test, chi-square). Data profiling and lineage. Anomaly detection in features. Data versioning alignment.

Similar Technologies

Manual ChecksSchema Validation OnlyStatistical Process ControlRule-based ValidationSampling

verified

Model Validation Techniques

Cross-Validation Strategies

Assessing model generalization with different data splits. K-fold cross-validation for robust estimates. Stratified sampling for imbalanced data. Time-series split for temporal data. Leave-one-out for small datasets. Nested CV for hyperparameter tuning. Scikit-learn cross_val_score. Prevents overfitting detection. Statistical significance of results. Validation set vs test set distinction.

Similar Technologies

Train-Test SplitHold-out ValidationBootstrap SamplingMonte Carlo CVTime-based Split

Holdout Set Validation

Separate test set for final model evaluation. Never used in training or hyperparameter tuning. Represents real-world distribution. Temporal holdout for time-based data. Geographic or demographic splits. Minimum sample size considerations. Prevents data leakage. Final arbiter of model performance. Test set contamination risks. Refreshing test sets periodically.

Similar Technologies

Cross-ValidationNo Test SetSingle SplitRolling WindowProduction Testing

Statistical Significance Testing

Determining if model improvements are meaningful. Paired t-test for model comparison. McNemar's test for classifiers. Wilcoxon signed-rank test (non-parametric). Confidence intervals for metrics. Multiple testing corrections (Bonferroni). Bootstrap confidence intervals. Effect size beyond p-values. A/B test statistical power. Avoiding p-hacking and multiple comparisons issues.

Similar Technologies

Point EstimatesRule of ThumbBusiness JudgmentVisual InspectionBayesian Inference

Offline vs Online Evaluation

Balancing historical and production validation. Offline: historical data, fast iteration, reproducible. Online: real user interactions, captures feedback loops, business metrics. Offline-online correlation monitoring. Shadow mode deployment for online metrics without impact. Bandit algorithms for online learning. Delayed feedback handling. Contextual factors in production. Simulation environments bridging offline-online gap.

Similar Technologies

Offline OnlyOnline OnlySimulationSynthetic DataHistorical Replay

speed

Performance Testing

Model Latency Testing

Measuring inference response time requirements. P50, P95, P99 latency percentiles. Load testing with Locust, JMeter, K6. Batch vs real-time inference latency. Cold start vs warm inference. GPU utilization and batching efficiency. Model optimization (quantization, pruning). Inference accelerators (ONNX Runtime, TensorRT). SLA requirements for latency. Latency budget breakdown (network, model, post-processing).

Similar Technologies

Throughput TestingNo Latency TestingManual TimingSynthetic BenchmarksSampling

Throughput & Scalability Testing

Testing system capacity and scaling behavior. Requests per second (RPS) capacity. Horizontal scaling with replicas. Auto-scaling trigger testing. Queue depth and backpressure. Resource utilization (CPU, GPU, memory). Batch size optimization. Concurrent request handling. Load balancer configuration. Cost per inference. Kubernetes HPA testing. Stress testing beyond normal load.

Similar Technologies

Latency TestingCapacity PlanningNo Load TestingProduction TestingRule-based Sizing

Resource Utilization Testing

Measuring compute, memory, and storage requirements. GPU memory footprint and utilization. CPU usage patterns. Model size and storage. Memory leaks in long-running services. Batch processing efficiency. Multi-model serving resource sharing. Container resource limits. Cost optimization opportunities. Profiling tools (cProfile, Py-Spy, NVIDIA Nsight). Right-sizing instances.

Similar Technologies

Manual MonitoringNo ProfilingDefault SizingOver-provisioningCost Analysis Only

Stress & Soak Testing

Testing system behavior under extreme and sustained load. Stress: exceeding normal capacity to find breaking points. Soak: sustained load over hours/days for memory leaks. Spike testing for traffic bursts. Graceful degradation validation. Circuit breaker and timeout testing. Error rate under stress. Recovery after overload. Chaos engineering for ML systems. Production-like load patterns.

Similar Technologies

Normal Load OnlyNo Endurance TestingSynthetic TestsProduction TestingConservative Limits

psychology

Model-Specific Testing

Fairness & Bias Testing

Evaluating model fairness across demographic groups. Disparate impact analysis. Equal opportunity metrics. Demographic parity testing. Fairness indicators (Google's What-If Tool). Slice-based evaluation. Subgroup performance analysis. AI Fairness 360, Fairlearn frameworks. Protected attribute leakage detection. Counterfactual fairness. Regulatory compliance (EU AI Act).

Similar Technologies

Overall Accuracy OnlyManual ReviewSampling ChecksNo Fairness TestingPost-hoc Analysis

Robustness Testing

Testing model resilience to input perturbations. Adversarial example generation (FGSM, PGD). Input corruption and noise testing. Out-of-distribution detection. Backdoor attack detection. Model extraction attack resistance. Certified robustness. CleverHans, Foolbox, ART libraries. Safety-critical application requirements. Robustness-accuracy tradeoffs.

Similar Technologies

Accuracy TestingNo Adversarial TestingRandom NoiseManual TestingProduction Monitoring

Explainability Validation

Testing model interpretability and explanations. SHAP value consistency and stability. LIME explanation reliability. Feature importance validation. Counterfactual explanations. Attention weight analysis. Explanation quality metrics. Human evaluation of explanations. Debugging model decisions. Regulatory requirements (GDPR right to explanation). Alibi, InterpretML frameworks.

Similar Technologies

Black Box ModelsNo ExplainabilitySimple ModelsFeature Importance OnlyDocumentation Only

Regression Testing for ML

Preventing degradation when updating models. Benchmark test set with known results. Performance regression detection. Prediction consistency checks. Golden dataset approach. Behavior drift from previous version. Automated comparison in CI/CD. Version control for test datasets. A/B testing new model versions. Shadow deployment validation. ML-specific regression challenges (non-determinism).

Similar Technologies

No Regression TestsManual ComparisonProduction A/B OnlySimple ChecksReplace Without Testing

construction

Testing Infrastructure

Test Data Management

Managing datasets for testing ML systems. Synthetic data generation for edge cases. Data versioning with DVC, Pachyderm. Test vs training data separation. Anonymization and data privacy. Representative sampling strategies. Test data refresh policies. Golden datasets for consistency. Data lineage tracking. Storage optimization. Seed management for reproducibility.

Similar Technologies

Production Data CopyNo Test DataRandom SamplingManual CurationSingle Test Set

CI/CD for ML Testing

Automating model testing in pipelines. Pre-commit hooks for code quality. Training pipeline triggered tests. Model evaluation gates. Performance benchmarking. Artifact versioning and promotion. GitHub Actions, GitLab CI, Jenkins. Kubeflow Pipelines testing. DVC pipeline testing. Fail fast on critical metrics. Progressive deployment with testing. Rollback automation.

Similar Technologies

Manual TestingNotebook-based TestingAd-hoc ScriptsProduction Testing OnlyNo Automation

Test Environment Management

Isolated environments for ML testing. Containerized test environments. Kubernetes namespaces for isolation. GPU allocation for tests. Feature store test instances. Mock services for dependencies. Ephemeral test environments. Infrastructure as code for consistency. Test data population automation. Cost management (shutdown idle resources). Docker Compose, Kubernetes, Terraform.

Similar Technologies

Shared EnvironmentsLocal Testing OnlyProduction TestingManual SetupNo Isolation

Model Testing Frameworks

Specialized tools for ML testing. TensorFlow Model Analysis (TFMA). Evidently AI for validation. WhyLabs for monitoring. MLflow evaluation APIs. AWS SageMaker Model Monitor. Azure ML model validation. Deepchecks for comprehensive testing. TorchMetrics for PyTorch. Integration with experiment tracking. Automated reporting and alerts.

Similar Technologies

Custom ScriptsManual TestingGeneral Testing ToolsNo FrameworkNotebook-based

rule

Model Testing Best Practices

ML Testing Best Practices

Test at Multiple Levels: Combine unit, integration, and system tests for comprehensive coverage
Automate Everything: Integrate testing into CI/CD pipelines for continuous validation
Version Test Data: Track test datasets alongside code and models for reproducibility
Monitor Test Coverage: Measure code coverage and test scenario coverage
Test Data Quality First: Validate data before model training and inference
Establish Baselines: Compare new models against baseline performance
Test for Fairness: Evaluate models across demographic slices and protected groups
Validate Explanations: Ensure model interpretability meets requirements
Performance Test Early: Identify latency and throughput issues before production
Regression Test Models: Prevent degradation when updating or retraining
Document Test Strategy: Maintain clear testing documentation and runbooks
Collaborate Across Teams: Involve data scientists, ML engineers, and QA