Will Percey — Portfolio

AI Data Architecture

> > Updated Dec 2025

account_tree

Data Pipeline Orchestration

Apache AirflowWorkflow orchestration for batch ML data pipelines

Key Features

DAG-based workflows with Python API
Extensive operators library for integrations
Backfilling and historical data reprocessing
Web UI with monitoring and alerting
Dynamic pipeline generation
Distributed task execution

Use Cases

ETL for ML training data
Scheduled data processing pipelines
Batch feature generation workflows
Multi-step ML pipeline orchestration

Similar Technologies

PrefectDagsterTemporalKubeflow Pipelines

Apache Kafka + Kafka StreamsReal-time streaming data platform

Key Features

Event streaming with high throughput
Exactly-once semantics for processing
Stream processing with Kafka Streams
Topic partitioning for parallelism
Durable message storage
Connect API for integrations

Use Cases

Real-time feature pipelines
Event-driven ML systems
Streaming ETL for online learning
Model inference result streams

Similar Technologies

Apache PulsarAWS KinesisApache FlinkSpark Streaming

PrefectModern workflow orchestration with dynamic DAGs

Key Features

Python-native dynamic workflows
Hybrid execution (local/cloud)
Parameterized flows and deployments
Advanced observability and alerting
Retries and error handling
Cloud-native design

Use Cases

Complex ML pipelines with dependencies
Dynamic data workflows
Research experiment pipelines
Cloud-native orchestration

Similar Technologies

AirflowDagsterTemporalFlyte

DagsterData orchestrator with asset-based pipelines

Key Features

Software-defined assets paradigm
Data lineage tracking built-in
Type system for data validation
Testing framework for pipelines
Declarative scheduling
Integrated with dbt, Spark, Pandas

Use Cases

Data platform engineering
Asset-oriented ML workflows
Data quality enforcement
Multi-team pipeline collaboration

Similar Technologies

PrefectAirflowdbtKedro

storage

Data Storage Layers

Delta LakeLakehouse storage layer with ACID transactions

Key Features

ACID transactions on data lakes
Time travel for data versioning
Schema evolution and enforcement
Upserts and deletes on Parquet
Audit history and rollback
Unified batch and streaming

Use Cases

ML data lakes with versioning
Feature data storage
Training dataset management
Batch + streaming pipelines

Similar Technologies

Apache IcebergApache HudiNessie

Apache IcebergHigh-performance table format for analytics

Key Features

Hidden partitioning (no user management)
Schema evolution without rewrites
Time travel and snapshots
ACID guarantees for data lakes
Multi-engine support (Spark, Flink, Trino)
Partition evolution over time

Use Cases

Petabyte-scale ML datasets
Multi-engine data access
Feature stores on data lakes
Data science workloads

Similar Technologies

Delta LakeApache HudiParquet

LakeFSGit-like version control for data lakes

Key Features

Branch, commit, merge for data
CI/CD pipelines for data
Zero-copy branching (metadata only)
Data lineage and governance
Hooks for validation
S3-compatible interface

Use Cases

Data versioning for reproducibility
ML experiment isolation
Data testing and validation
Safe experimentation on production data

Similar Technologies

DVCPachydermDelta Lake time travel

MinIOHigh-performance S3-compatible object storage

Key Features

S3 API compatible
On-premises deployment
Object versioning
Lifecycle management
Multi-tenancy support
Erasure coding for durability

Use Cases

Private cloud ML storage
On-premises data lake
Model artifact storage
Edge and air-gapped deployments

Similar Technologies

AWS S3Azure BlobGCSCeph

settings

ML Data Processing Patterns

Pattern	Description	Latency	Complexity	Best For
Batch Processing	Periodic large-scale data processing	Hours-Days	Low	Historical features, model training data, offline analytics
Stream Processing	Real-time continuous data processing	Seconds-Minutes	High	Real-time features, online learning, fraud detection
Micro-batch	Small batch processing at intervals	Minutes	Medium	Near-real-time features, cost optimization
Lambda Architecture	Batch + stream layers combined	Varies	Very High	Comprehensive analytics, serving historical + real-time
Kappa Architecture	Stream-only processing (no batch layer)	Seconds	High	Event-driven ML, unified pipeline, simplification
Change Data Capture (CDC)	Capture database changes in real-time	Real-time	Medium	Database sync, event sourcing, incremental updates

verified

Data Quality & Validation

verified

Data Validation

Frameworks:

Great Expectations: Declarative validation with extensive checks
Pandera: Schema validation for pandas
Deequ: Amazon's data quality library on Spark
TFDV: TensorFlow Data Validation
Soda: SQL-based quality testing

schema

Schema Management

Tools:

Schema Registry: Confluent's centralized schema management
Protobuf: Binary serialization with schema evolution
Apache Avro: Row-oriented data serialization
Parquet Schema: Columnar format with embedded schema
Schema inference: Automated schema detection and drift

account_tree

Data Lineage

Platforms:

OpenLineage: Open standard for lineage
Apache Atlas: Data governance and metadata
Marquez: Metadata service for lineage
DataHub: Metadata platform with lineage tracking
Monte Carlo: Data observability platform

troubleshoot

Data Drift Detection

Solutions:

Evidently AI: ML monitoring and drift detection
WhyLabs: AI observability platform
Alibi Detect: Outlier and drift detection
NannyML: Post-deployment monitoring
Statistical tests: KS, PSI, Jensen-Shannon divergence

architecture

ML Data Architecture Patterns

Architecture	Components	Strengths	Challenges	Use Case
Data Warehouse for ML	Snowflake/BigQuery/Redshift + dbt + Feature Store	Structured data, SQL-friendly, proven patterns, strong governance	Not for real-time, costly at scale, limited flexibility	Enterprise ML with structured data, BI-driven analytics
Data Lakehouse	Delta Lake/Iceberg + Spark + Unity Catalog	Unified storage, ACID guarantees, flexibility, cost-effective	Complexity, governance overhead, learning curve	Modern ML platforms, data science teams, mixed workloads
Streaming-First	Kafka + Flink/Spark Streaming + Feature Store	Real-time capabilities, event-driven, low latency	High complexity, operational burden, cost	Real-time ML, fraud detection, recommendations, trading
Cloud-Native	S3 + Glue/Dataflow + BigQuery/Athena	Serverless, scalable, managed services, fast to market	Vendor lock-in, cost at scale, limited customization	Cloud-first organizations, startups, rapid prototyping
Hybrid (On-Prem + Cloud)	MinIO + Spark + Cloud connectors	Data sovereignty, flexibility, gradual migration	Complex networking, dual management, synchronization	Regulated industries, gradual cloud migration, compliance

star

Data Pipeline Best Practices

Pipeline Design Principles

Idempotency: Same input produces same output (safe retries)
Incremental processing: Process only new/changed data
Backfill capability: Reprocess historical data easily
Checkpointing: Resume from failures without restarting
Partition pruning: Only read necessary data partitions
Late data handling: Manage out-of-order events gracefully

Performance Optimization

Columnar storage: Use Parquet, ORC for analytics
Partition strategies: Date, region, model_id partitioning
Predicate pushdown: Filter data at source
Broadcast joins: For small dimension tables
Cache frequently used: Hot datasets in memory
Compression: Snappy for speed, Gzip for storage

Reliability & Monitoring

Data validation: At pipeline boundaries (Great Expectations)
Alerting: On pipeline failures and SLA breaches
SLA monitoring: Track data freshness and completeness
Dead letter queues: Failed records for debugging
Pipeline testing: Unit, integration, end-to-end tests
Observability: Logs, metrics, traces for pipelines