Will Percey — Portfolio

travel_explore

Specialized Vector Databases

Pinecone

Fully managed vector database optimized for real-time semantic search with automatic scaling and high availability.

Key Features

Managed service with zero ops
Hybrid search (dense + sparse)
Metadata filtering
Namespace isolation
Real-time updates and deletions

Use Cases

Production RAG applications
Semantic search at scale
Real-time recommendations
Question-answering systems

Alternatives

WeaviateQdrantMilvusChroma

Weaviate

Open-source vector database with GraphQL API, hybrid search, and built-in ML model integration for vectorization.

Key Features

Automatic vectorization with modules
Hybrid search (vector + keyword)
GraphQL and REST APIs
Multi-tenancy support
Generative search (RAG built-in)

Use Cases

Semantic search applications
Knowledge graphs with vectors
Multi-modal search
E-commerce product search

Alternatives

PineconeQdrantMilvusVespa

Qdrant

High-performance vector database written in Rust with rich filtering, payload support, and production-ready features.

Key Features

Rich payload filtering
Hybrid search capabilities
Snapshot and WAL for durability
Distributed mode for scaling
GRPC and REST APIs

Use Cases

Production vector search
RAG with complex filtering
Recommendation engines
Similarity-based matching

Alternatives

PineconeWeaviateMilvusChroma

Milvus

Cloud-native vector database supporting billion-scale vector search with GPU acceleration and Kubernetes-native deployment.

Key Features

Billion-scale vector support
GPU acceleration
Multiple index types (HNSW, IVF, DiskANN)
Time travel queries
Kubernetes-native

Use Cases

Massive-scale vector search
Image/video similarity
Recommendation at scale
Enterprise search

Alternatives

PineconeWeaviateQdrantVespa

Chroma

Developer-friendly open-source embedding database designed for AI applications with Python/JavaScript SDKs.

Key Features

Simple Python/JS API
Automatic embedding generation
In-memory and persistent modes
Metadata filtering
LangChain integration

Use Cases

Prototype RAG applications
Local development
LLM application development
Small to medium datasets

Alternatives

WeaviateQdrantLanceDBPinecone

LanceDB

Open-source vector database built on Lance format with disk-based storage for large-scale embeddings.

Key Features

Disk-based storage efficiency
Columnar format (Lance)
Versioning and time travel
Python and JavaScript support
Serverless-friendly

Use Cases

Large embedding datasets
Cost-efficient vector storage
Multimodal AI applications
Local-first applications

Alternatives

ChromaQdrantWeaviateMilvus

database

Traditional Databases with Vector Support

pgvector (PostgreSQL)

PostgreSQL extension adding vector similarity search to existing Postgres databases with familiar SQL interface.

Key Features

Native Postgres extension
Standard SQL queries
ACID transactions
Existing Postgres tooling
L2, cosine, inner product distances

Use Cases

Add vectors to existing apps
Hybrid relational + vector
Small to medium scale
PostgreSQL ecosystems

Similar Technologies

Supabase VectorNeonSpecialized vector DBs

Elasticsearch Vector Search

Elasticsearch's native vector search capabilities with dense_vector field type and kNN search integration.

Key Features

Dense vector field type
Approximate kNN search
Hybrid text + vector search
Existing Elasticsearch features
Kibana visualization

Use Cases

Existing Elasticsearch deployments
Hybrid keyword + semantic
Enterprise search
Log analytics with vectors

Similar Technologies

OpenSearchWeaviateVespaSolr

MongoDB Atlas Vector Search

MongoDB's vector search capability built on top of Atlas Search with native integration for document + vector queries.

Key Features

Native MongoDB integration
Combined document + vector queries
Hierarchical Navigable Small Worlds (HNSW)
Vector indexes on any field
Atlas Search integration

Use Cases

Existing MongoDB apps
Document + vector hybrid
E-commerce search
Content recommendation

Similar Technologies

PineconeWeaviateCosmosDB Vector

Redis Vector Search

Redis Stack's vector similarity search with ultra-low latency using RediSearch module and in-memory performance.

Key Features

In-memory ultra-low latency
HNSW and Flat indexes
Hybrid queries with RediSearch
Real-time vector updates
Redis ecosystem integration

Use Cases

Real-time recommendations
Low-latency RAG
Session-based search
Caching + vectors

Similar Technologies

PineconeQdrantDragonflyDB

cloud_sync

Managed Vector Services

Pinecone

Fully managed, purpose-built vector database with serverless deployment and enterprise features.

Key Features

Serverless with automatic scaling
Multi-region deployment
SOC 2 compliance
Sub-second query latency
Built-in monitoring

Use Cases

Enterprise RAG applications
Production semantic search
Zero-ops vector search
Mission-critical AI apps

Similar Technologies

Zilliz CloudWeaviate CloudAWS OpenSearch

Zilliz Cloud (Managed Milvus)

Fully managed Milvus service by the creators of Milvus with enterprise support and optimizations.

Key Features

Managed Milvus clusters
Auto-scaling
Multi-cloud support
Performance optimization
24/7 enterprise support

Use Cases

Enterprise Milvus deployments
Billion-scale managed search
Multi-cloud vector search
Mission-critical workloads

Similar Technologies

PineconeWeaviate CloudSelf-hosted Milvus

Weaviate Cloud

Fully managed Weaviate with serverless clusters, automatic updates, and enterprise features.

Key Features

Serverless Weaviate
Automatic version updates
Built-in monitoring
Enterprise SLA
Easy module configuration

Use Cases

Managed semantic search
Production RAG
Hybrid search applications
Enterprise knowledge bases

Similar Technologies

PineconeZilliz CloudSelf-hosted Weaviate

AWS OpenSearch Vector Engine

Amazon's managed vector search built on OpenSearch with AWS integration and familiar OpenSearch APIs.

Key Features

Native AWS integration
OpenSearch ecosystem
k-NN plugin built-in
VPC and IAM integration
CloudWatch monitoring

Use Cases

AWS-native vector search
Existing OpenSearch users
Enterprise AWS deployments
Hybrid OpenSearch workloads

Similar Technologies

S3 VectorsKendraPinecone

Amazon S3 Vectors

First cloud object storage with native vector support. Store and query up to 2 billion vectors per index with up to 90% cost savings over traditional vector databases. Vector buckets with dedicated APIs, no infrastructure to provision.

Key Features

2 billion vectors per index
10,000 indexes per vector bucket
Sub-100ms query latency
Bedrock Knowledge Bases integration
OpenSearch Service integration
Pay-per-use pricing model

Use Cases

Cost-effective RAG at scale
Large embedding storage
Bedrock Knowledge Bases backend
Hybrid search with OpenSearch

Similar Technologies

OpenSearch Vector EnginePineconeBedrock Knowledge Bases

Vector Search Algorithms

Algorithm	Type	Accuracy	Speed	Use Case
Flat (Exact)	Brute force	Perfect	Slow	Small datasets, benchmarking
HNSW	Graph-based ANN	Very High	Fast	Production workloads, RAG
IVF (Inverted File)	Clustering ANN	High	Medium	Large-scale search
Product Quantization	Compression	Medium-High	Very Fast	Memory-constrained systems
ScaNN	Google's ANN	High	Very Fast	Billion-scale search
Annoy	Tree-based ANN	Medium	Fast	Read-heavy workloads

Distance Metrics & Similarity

Cosine Similarity

Formula: cos(θ) = (A · B) / (||A|| ||B||)

Range: [-1, 1] (often normalized to [0, 1])

Use Cases: Text embeddings, semantic search, document similarity

Characteristics: Direction-focused, magnitude-independent

Euclidean Distance (L2)

Formula: ||A - B|| = √(Σ(ai - bi)²)

Range: [0, ∞)

Use Cases: Image embeddings, computer vision, feature similarity

Characteristics: Magnitude-sensitive, geometric distance

Dot Product

Formula: A · B = Σ(ai × bi)

Range: (-∞, ∞)

Use Cases: Recommendation systems, neural network activations

Characteristics: Fast computation, unnormalized similarity

Manhattan Distance (L1)

Formula: ||A - B||₁ = Σ|ai - bi|

Range: [0, ∞)

Use Cases: Sparse vectors, grid-based distances

Characteristics: Less sensitive to outliers than L2

Vector Database Architecture Patterns

psychology

RAG (Retrieval-Augmented Generation)

Store document embeddings for semantic search and context retrieval in LLM applications.

recommend

Recommendation Systems

Find similar items based on user preferences and item embeddings for personalization.

image_search

Image & Video Search

Search visual content using embeddings from vision models like CLIP or ResNet.

monitoring

Anomaly Detection

Identify outliers by finding data points distant from normal patterns in vector space.

text_snippet

Semantic Search

Find conceptually similar content rather than exact keyword matches using embeddings.

playlist_add_check

Duplicate Detection

Find near-duplicate content by identifying vectors with high similarity scores.