Will Percey — Portfolio

Experiment Tracking

> > Updated Dec 2025

science

Experiment Tracking Platforms

MLflowOpen-source ML lifecycle platform

Key Features

Experiment tracking with metrics and artifacts
Model registry with versioning
Project packaging for reproducibility
Model deployment APIs
Multi-framework support (TF, PyTorch, Sklearn)
Self-hosted or Databricks managed

Use Cases

Tracking experiments across frameworks
Model versioning and lineage
Team collaboration
Reproducibility and deployment

Similar Technologies

Weights & BiasesNeptune.aiClearMLComet

Weights & Biases (W&B)ML experiment tracking and collaboration

Key Features

Real-time metric tracking and visualization
Hyperparameter sweeps with Bayesian optimization
Dataset versioning and artifacts
Model registry and lineage
Team reports and collaboration
Integration with all ML frameworks

Use Cases

Deep learning experiments
Team collaboration and sharing
Hyperparameter optimization
Model comparison and analysis

Similar Technologies

MLflowNeptune.aiComet.mlTensorBoard

Neptune.aiMetadata store for MLOps

Key Features

Flexible metadata logging
Experiment comparison and filtering
Query API for programmatic access
Model registry
Team workspace and permissions
25+ integrations with ML tools

Use Cases

Research team collaboration
Production ML tracking
Experiment comparison at scale
Metadata management

Similar Technologies

Weights & BiasesMLflowComet.mlClearML

ClearMLOpen-source MLOps platform

Key Features

Automatic experiment logging
Experiment management and comparison
Remote execution and orchestration
Dataset versioning
Model serving capabilities
Self-hosted or cloud

Use Cases

End-to-end MLOps workflows
Automated tracking without code changes
Remote training and execution
Pipeline orchestration

Similar Technologies

MLflowWeights & BiasesNeptune.aiKubeflow

build

Specialized Tracking Tools

TensorBoardTensorFlow's visualization toolkit

Key Features

Scalar metrics tracking and plotting
Histogram and distribution visualization
Embedding projections (t-SNE, PCA)
Model graph visualization
Profiling and performance analysis
Hyperparameter tuning dashboard

Use Cases

TensorFlow/PyTorch training visualization
Debugging neural networks
Model architecture inspection
Performance profiling

Similar Technologies

Weights & BiasesMLflowTensorBoard.dev

Comet.mlML experiment tracking and monitoring

Key Features

Experiment tracking and comparison
Model production monitoring
Hyperparameter optimization
Team collaboration and reports
Code and environment tracking
Integration with CI/CD

Use Cases

Research experiment tracking
Production model monitoring
Model comparison and selection
Team collaboration workflows

Similar Technologies

Weights & BiasesNeptune.aiMLflowAim

AimOpen-source experiment tracker

Key Features

Lightweight and fast logging
Python-native API
Distributed training support
Comparison UI and exploration
Self-hosted with minimal setup
No vendor lock-in

Use Cases

Lightweight experiment tracking
High-performance logging needs
Open-source preference
Minimal infrastructure requirements

Similar Technologies

MLflowTensorBoardWeights & Biases

Guild AIExperiment tracking with reproducibility focus

Key Features

Experiment management and tracking
Reproducibility guarantees
Hyperparameter search
Resource monitoring (GPU, CPU)
Pipeline integration
Comparison and analysis tools

Use Cases

Reproducible research
Hyperparameter tuning
Resource usage tracking
Academic and research projects

Similar Technologies

MLflowWeights & BiasesOptuna + MLflow

compare

Experiment Tracking Platform Comparison

Platform	Hosting	Strengths	Limitations	Pricing
MLflow	Self-hosted / Databricks	Open-source, framework-agnostic, mature ecosystem	Basic UI, limited collaboration features	Free (open-source)
Weights & Biases	Cloud / Self-hosted	Best-in-class UI, sweeps, team features, real-time	Cost at scale, cloud dependency for free tier	Free tier, then usage-based
Neptune.ai	Cloud	Flexible metadata, query API, team workspace	Learning curve for advanced features	Free tier, then per-user
ClearML	Self-hosted / Cloud	Full MLOps stack, auto-logging, orchestration	Complex setup, enterprise-focused	Free (open-source) / Enterprise
TensorBoard	Self-hosted	Native TF/PyTorch integration, free, lightweight	Limited collaboration, basic tracking only	Free (open-source)
Comet.ml	Cloud	Production monitoring, easy setup, good integrations	Cost, cloud-only for free tier	Free tier, then usage-based
Aim	Self-hosted	Fast, lightweight, Python-native, no lock-in	Smaller ecosystem, fewer features	Free (open-source)

checklist

What to Track in ML Experiments

tune

Hyperparameters

Model architecture: Layers, units, activation functions
Learning rates: Initial, schedule, warmup
Batch sizes: Training and validation batch sizes
Regularization: Dropout, L1/L2 coefficients, weight decay
Optimizer config: Adam betas, momentum, epsilon
Random seeds: For reproducibility

analytics

Metrics

Training metrics: Loss, accuracy per epoch
Validation metrics: Val loss, val accuracy, overfitting indicators
Test metrics: Precision, recall, F1, AUC-ROC, AUC-PR
Custom metrics: Business-specific KPIs
Per-class metrics: For imbalanced datasets
Confusion matrices: Classification error analysis

folder

Artifacts

Model checkpoints: Best, final, intermediate checkpoints
Training logs: Console output and detailed logs
Architecture diagrams: Model structure visualizations
Prediction samples: Sample outputs (images, text)
Feature importance: SHAP values, feature rankings
Visualizations: Confusion matrices, ROC curves, learning curves

code

Environment & Code

Git commit hash: Exact code version
Package versions: requirements.txt, environment.yml
System info: GPU type, CPU, RAM, OS
Docker image tags: Container versions
Code diffs: Changes from main branch
Command-line args: Script execution parameters

dataset

Dataset Information

Dataset version: DVC commit, data Git hash
Data split sizes: Train/val/test counts
Class distributions: Label balance statistics
Data augmentation: Transformations applied
Preprocessing: Normalization, scaling steps
Quality metrics: Missing values, outliers

memory

System Metrics

GPU utilization: Percentage and memory usage
CPU and RAM: System resource consumption
Training time: Per epoch and total duration
Throughput: Samples per second, batches per second
Disk I/O: Read/write speeds
Network bandwidth: For distributed training

account_tree

Experiment Organization Strategies

Strategy	Description	Benefits	Tools	Use Case
Flat Runs	All experiments at the same level	Simple, quick start, minimal overhead	Any tracking tool	Small projects, solo work, quick prototyping
Projects/Groups	Organize experiments by project or model type	Logical grouping, team collaboration, filtering	W&B projects, MLflow experiments	Team projects, multiple models, different datasets
Hierarchical Runs	Parent runs with child runs (nested)	Complex experiments, grid search organization	W&B nested runs, MLflow nested runs	Hyperparameter tuning, multi-stage pipelines
Tags & Labels	Tag experiments with metadata keywords	Flexible search and filtering, cross-cutting	Tags in all platforms	Large projects, cross-cutting concerns, ad-hoc filtering
Versioned Pipelines	Link experiments to pipeline versions	End-to-end lineage, reproducibility	MLflow projects, Kubeflow pipelines	Production ML, strict reproducibility, compliance
Branches	Experiment branches like Git branches	Parallel experimentation, exploration	Guild AI, custom workflows	Research, ablation studies, feature experiments

tune

Hyperparameter Optimization Tools

OptunaHyperparameter optimization framework

Key Features

Define-by-run API (dynamic search spaces)
Pruning unpromising trials early
TPE, CMA-ES, Grid, Random samplers
Parallel and distributed optimization
Visualization dashboards
Integration with ML frameworks

Use Cases

Neural architecture search
Model hyperparameter tuning
Multi-objective optimization
Automated ML tuning

Similar Technologies

Ray TuneHyperoptKeras TunerW&B Sweeps

Ray TuneScalable hyperparameter tuning

Key Features

Distributed tuning across cluster
Population-based training (PBT)
ASHA scheduling for early stopping
Integration with Optuna, Hyperopt, Ax
Fault tolerance and checkpointing
TensorBoard and W&B integration

Use Cases

Large-scale distributed tuning
Multi-GPU and multi-node experiments
Reinforcement learning HPO
Production hyperparameter search

Similar Technologies

OptunaHyperoptAxW&B Sweeps

Weights & Biases SweepsHyperparameter search with visualization

Key Features

Bayesian optimization and grid/random search
Real-time visualization of results
Early stopping based on metrics
Multi-objective optimization
Team collaboration on sweeps
Integration with W&B tracking

Use Cases

Team hyperparameter tuning
Visual experiment tracking
Deep learning optimization
Collaborative hyperparameter search

Similar Technologies

OptunaRay TuneNeptune.aiMLflow

Ax / BoTorchBayesian optimization from Meta

Key Features

Bayesian optimization with Gaussian processes
Multi-objective optimization
A/B testing and experimentation platform
Service API for production
BoTorch backend (PyTorch-based)
Advanced acquisition functions

Use Cases

Advanced Bayesian optimization
Multi-objective problems
Production A/B testing
Research and custom optimization

Similar Technologies

OptunaRay TuneHyperoptGPyOpt

verified

Experiment Tracking Best Practices

Tracking Hygiene

Log everything: Log anything that might matter later
Naming conventions: Consistent experiment naming
Meaningful tags: Descriptive labels for filtering
Document goals: Record hypotheses and objectives
Track failures: Negative results are important too
Link to issues: Connect experiments to tickets/PRs

Reproducibility

Random seeds: Always log and set seeds
Full environment: Docker images, conda environments
Code version: Git commit hash tracking
Dataset versions: Use DVC, hash, or version ID
Manual steps: Document any manual interventions
Config files: YAML/JSON for all parameters

Team Collaboration

Team conventions: Establish shared naming standards
Share runs: Annotate and share interesting results
Create reports: Summaries for stakeholders
Organize workspaces: Use projects for team areas
Review meetings: Regular experiment review sessions
Document learnings: Capture insights in run notes