Will Percey — Portfolio

Core Responsible AI Principles

Fairness

Definition: AI systems should treat all people equitably without discrimination

Key Concepts:

Demographic parity
Equal opportunity
Equalized odds
Individual fairness

Practice: Bias detection, fair representation in data, fairness metrics

Transparency

Definition: AI systems should be understandable and their operations clear

Key Concepts:

Model cards
Datasheets for datasets
Audit trails
Documentation

Practice: Clear documentation, disclosure of AI use, explainability

Explainability

Definition: Ability to understand and interpret AI decisions

Key Concepts:

Feature importance
Decision trees visualization
Attention mechanisms
Counterfactual explanations

Practice: SHAP, LIME, attention visualization, model interpretability

Accountability

Definition: Clear responsibility for AI system outcomes

Key Concepts:

Human oversight
Audit mechanisms
Redress procedures
Responsibility assignment

Practice: Governance frameworks, incident response, clear ownership

Privacy

Definition: Protection of individual data and rights

Key Concepts:

Data minimization
Purpose limitation
Consent management
Right to be forgotten

Practice: Differential privacy, federated learning, anonymization

Safety & Robustness

Definition: AI systems should be reliable and secure

Key Concepts:

Adversarial robustness
Fail-safe mechanisms
Testing and validation
Monitoring and alerts

Practice: Red teaming, stress testing, continuous monitoring

Bias Detection & Mitigation

Bias Type	Description	Detection Method	Mitigation Strategy
Selection Bias	Training data not representative of population	Statistical analysis of data distribution	Stratified sampling, data augmentation
Measurement Bias	Systematic errors in data collection	Audit data collection process	Improve measurement tools, calibration
Historical Bias	Past inequities reflected in data	Domain expert review, fairness metrics	Reweighting, debiasing algorithms
Aggregation Bias	One model for diverse groups	Subgroup performance analysis	Group-specific models, stratification
Algorithmic Bias	Model amplifies existing biases	Fairness metrics (demographic parity, EOd)	Fairness constraints, adversarial debiasing
Confirmation Bias	Model reinforces preexisting beliefs	Diverse testing, adversarial examples	Diverse team review, red teaming

Explainability Methods

SHAP (SHapley Additive exPlanations)

Type: Model-agnostic, post-hoc

How it works: Game theory approach to attribute feature contributions

Pros: Theoretically grounded, consistent, locally accurate

Cons: Computationally expensive for large datasets

Use cases: Feature importance, prediction explanation

LIME (Local Interpretable Model-agnostic Explanations)

Type: Model-agnostic, local

How it works: Fit interpretable model around prediction

Pros: Fast, works with any model, intuitive

Cons: Can be unstable, sampling-dependent

Use cases: Individual prediction explanation, debugging

Attention Visualization

Type: Model-specific (transformers)

How it works: Visualize attention weights between tokens

Pros: Native to architecture, interpretable

Cons: Only for attention-based models

Use cases: NLP, vision transformers, debugging

Counterfactual Explanations

Type: Example-based

How it works: "If X were different, output would change"

Pros: Actionable, human-understandable

Cons: May not be realistic or feasible

Use cases: Loan decisions, hiring, medical diagnosis

Feature Importance

Type: Global explanation

How it works: Rank features by contribution to predictions

Pros: Simple, fast, actionable

Cons: May miss interactions, correlation != causation

Use cases: Feature selection, model understanding

Partial Dependence Plots (PDP)

Type: Global, visual

How it works: Show relationship between feature and prediction

Pros: Intuitive, shows non-linear relationships

Cons: Assumes feature independence

Use cases: Feature effect analysis, communication

Fairness Metrics

Metric	Formula/Definition	Interpretation	Use Case
Demographic Parity	P(Ŷ=1 \| A=0) = P(Ŷ=1 \| A=1)	Equal positive prediction rates across groups	Advertising, college admissions
Equal Opportunity	P(Ŷ=1 \| Y=1, A=0) = P(Ŷ=1 \| Y=1, A=1)	Equal true positive rates	Loan approval, hiring
Equalized Odds	Equal TPR and FPR across groups	Fair error rates for all groups	Criminal justice, medical diagnosis
Predictive Parity	P(Y=1 \| Ŷ=1, A=0) = P(Y=1 \| Ŷ=1, A=1)	Equal precision across groups	Credit scoring, fraud detection
Individual Fairness	Similar individuals → similar predictions	Consistent treatment of similar cases	Personalized recommendations

Responsible AI Tools & Frameworks

Fairness Toolkits

Fairlearn: Microsoft's fairness assessment and mitigation
AI Fairness 360 (AIF360): IBM's comprehensive fairness toolkit
What-If Tool: Google's interactive ML fairness explorer
Aequitas: Bias and fairness audit toolkit

Explainability Libraries

SHAP: Feature importance and prediction explanation
LIME: Local model explanations
InterpretML: Microsoft's glass-box models
Captum: PyTorch model interpretability
Alibi: ML model inspection and interpretation

Model Cards & Documentation

Model Cards: Standardized model documentation
Datasheets for Datasets: Dataset documentation
FactSheets: IBM's AI service documentation
Hugging Face Model Cards: Pre-filled templates

Testing & Validation

Checklist: Behavioral testing for NLP
Robustness Gym: Stress testing ML models
TextAttack: Adversarial attacks for NLP
Adversarial Robustness Toolbox: Model robustness