Will Percey — Portfolio

Multi-Modal AI

> > Updated Dec 2025

visibility

Vision-Language Models

CLIP (Contrastive Language-Image Pre-training)

OpenAI model learning joint embedding space for images and text via contrastive learning. Trained on 400M image-text pairs. Enables zero-shot image classification by comparing to text descriptions. Foundation for many multimodal applications including semantic image search, retrieval, and cross-modal understanding.

Similar Technologies

ALIGNBLIPCoCaFlorenceSigLIP

BLIP (Bootstrapped Language-Image Pre-training)

Salesforce model with encoder-decoder architecture for vision-language understanding and generation. Supports image captioning, VQA, and image-text retrieval. Bootstrap captioning filters noisy web data. BLIP-2 adds Q-Former for efficient LLM connection without full fine-tuning.

Similar Technologies

CLIPFlamingoCoCaGITBLIP-2

LLaVA (Large Language and Vision Assistant)

Connects vision encoder (CLIP) to language model (Vicuna) via projection layer. Instruction-following for visual tasks. Trained on GPT-4 generated image-text instructions. Enables multimodal conversations and reasoning. Open-source alternative to GPT-4V.

Similar Technologies

MiniGPT-4InstructBLIPQwen-VLFuyuCogVLM

Flamingo (DeepMind)

Few-shot learner for vision and language via frozen LLM plus vision encoder with gated cross-attention. Interleave images and text in prompts. State-of-art few-shot VQA and captioning. Efficient adaptation via perceiver resampler for variable-length inputs.

Similar Technologies

GPT-4VGeminiBLIP-2OpenFlamingoIdefics

GPT-4V (Vision)

OpenAI's multimodal GPT-4 with vision capabilities. Analyze images, charts, diagrams, screenshots with detailed descriptions and reasoning. OCR and document understanding. Accessible via API with strong performance across multimodal benchmarks.

Similar Technologies

Claude 4Gemini Pro VisionLLaVAQwen-VL-PlusClaude Opus

Gemini (Google)

Natively multimodal from training (text, images, video, audio). Unified architecture not separate encoders bolted together. Long context window for multimodal inputs. State-of-art across benchmarks. Available in Ultra, Pro, and Nano variants for different scales.

Similar Technologies

GPT-4VClaude OpusFlamingoKosmos-2Qwen-VL-Max

mic

Audio-Visual & Speech Models

Whisper (OpenAI)

Robust speech recognition model trained on 680K hours of multilingual data. Automatic speech recognition (ASR), translation, and language identification. Multiple model sizes from tiny to large. Handles accents, background noise, and technical language effectively. Open-source and widely adopted.

Similar Technologies

Wav2Vec 2.0HuBERTConformerFastConformerCanary

Audio-Language Models

Models connecting audio with text understanding. Speech-to-text (Whisper), text-to-speech (Bark, VALL-E), audio event detection. Multimodal models like ImageBind from Meta provide unified embedding space across 6 modalities. Enables audio captioning, generation, and cross-modal retrieval.

Similar Technologies

WhisperBarkAudioLMMusicGenSpeechGPT

Video Understanding Models

Extend vision-language models to temporal dimension. Video captioning (Vid2Seq, GIT), video QA (FrozenBiLM), action recognition. Temporal modeling via 3D convolutions or transformers. Video retrieval and summarization. Challenge remains handling long sequences efficiently.

Similar Technologies

VideoMAETimeSformerVideo-LLaMAValleyVideo-ChatGPT

Unified Multimodal Models

Single model handling multiple modalities simultaneously. ImageBind (6 modalities), Meta-Transformer (12 modalities), Unified-IO (25 tasks). Shared embedding space enables cross-modal reasoning and zero-shot transfer. Future direction: any-to-any modality translation.

Similar Technologies

ImageBindMeta-TransformerUnified-IOGeminiGPT-4 Multimodal

merge

Multimodal Fusion Strategies

merge

Early Fusion

Combine modalities at input level before processing

Pros: Maximum cross-modal interaction, simple architecture

Cons: Requires aligned data, hard to scale modalities

Examples: Concatenate image + text embeddings, joint tokenization

call_merge

Late Fusion

Process each modality separately then combine outputs

Pros: Flexible, can use pretrained encoders, handle missing modalities

Cons: Limited cross-modal reasoning, integration happens late

Examples: Ensemble predictions, weighted averaging, gating

device_hub

Hybrid Fusion

Multi-stage fusion with early and late components

Pros: Balanced cross-modal interaction and flexibility

Cons: More complex, harder to train

Examples: Flamingo (cross-attention layers), BLIP-2 (Q-Former), perceiver

apps

Multimodal Applications & Use Cases

Application	Modalities	Models	Use Case Examples
Visual Question Answering	Image + Text	LLaVA, BLIP, Flamingo	Product support, accessibility, education
Image Captioning	Image → Text	BLIP, GIT, CoCa	Alt-text generation, content moderation
Document Understanding	Image + Text (OCR)	GPT-4V, Donut, LayoutLM	Invoice processing, form extraction
Video Analysis	Video + Audio + Text	Video-LLaMA, Valley	Content summarization, surveillance
Voice Assistants	Speech + Text	Whisper + LLM	Customer service, accessibility
Content Creation	Text → Image/Video/Audio	DALL-E, Stable Diffusion, Sora	Marketing, design, entertainment

model_training

Training Multimodal Models

Contrastive Learning

Learn joint embedding space by pulling positive pairs close and pushing negatives apart. CLIP approach - image-text pairs from web. InfoNCE loss for contrastive objectives. Large batch sizes (32K+) crucial for effectiveness. Self-supervised pre-training on massive datasets enables strong zero-shot capabilities.

Similar Technologies

Supervised LearningMasked ModelingGenerative Pre-trainingReconstruction LossTriplet Loss

Modality Alignment

Connect pretrained encoders (vision + language) via projection layers or cross-attention. Freeze base models, train connector only. Q-Former (BLIP-2) uses learnable queries. Perceiver resampler handles variable-length inputs. Efficient approach that reuses strong pretrained components without full fine-tuning.

Similar Technologies

Joint TrainingEarly FusionAdapter ModulesGated Cross-AttentionToken Interleaving

Instruction Tuning for Multimodal

Fine-tune on instruction-following multimodal tasks. LLaVA uses GPT-4 to generate image instructions. Conversational format with interleaved images and text. Improves zero-shot generalization across tasks. Visual instruction datasets: LLaVA-Instruct, InstructBLIP, MultiInstruct.

Similar Technologies

Task-Specific Fine-TuningPrompt EngineeringFew-Shot LearningRLHFDPO

Evaluation Benchmarks

Standard datasets for multimodal evaluation. VQA v2 (visual questions), COCO Captions (image captioning), RefCOCO (referring expressions), GQA (compositional reasoning), MMBench (comprehensive eval). Metrics include accuracy, BLEU, CIDEr, and METEOR for different task types.

Similar Technologies

Custom BenchmarksHuman EvaluationTask-Specific MetricsA/B TestingUser Studies