使用 Envoy AI Gateway 安装
本指南提供了在 Kubernetes 上将 vLLM 语义路由与 Envoy AI Gateway 集成的分步说明,以实现高级流量管理和 AI 特定功能。
架构概览
部署包含以下组件:
- vLLM 语义路由:提供智能请求路由和语义理解
- Envoy Gateway:核心网关功能和 流量管理
- Envoy AI Gateway:基于 Envoy Gateway 构建的 LLM 提供商 AI 网关
集成优势
将 vLLM 语义路由与 Envoy AI Gateway 集成,为生产级 LLM 部署提供企业级能力:
1. 混合模型选择
在云端 LLM 提供商(OpenAI、Anthropic 等)和自托管模型之间无缝路由请求。
2. 令牌速率限制
通过细粒度速率限制保护您的基础设施并控制成本:
- 输入令牌限制:控制请求大小以防止滥用
- 输出令牌限制:管理响应生成成本
- 总令牌限制:为每个用户/租户设置总体使用配额
- 基于时间窗口:配置每秒、每分钟或每小时的限制
3. 模型/提供商故障转移
通过自动故障转移机制确保高可用性:
- 检测不健康的后端并将流量路由到健康实例
- 支持主动-被动和主动-主动故障转移策略
- 当主要模型不可用时优雅 降级
4. 流量分割和金丝雀测试
通过渐进式发布能力安全部署新模型:
- A/B 测试:在模型版本之间分割流量以比较性能
- 金丝雀部署:逐步将流量转移到新模型(例如 5% → 25% → 50% → 100%)
- 影子流量:向新模型发送重复请求而不影响生产
- 基于权重的路由:微调跨模型变体的流量分配
5. LLM 可观测性与监控
深入了解您的 LLM 基础设施:
- 请求/响应指标:跟踪延迟、吞吐量、令牌使用和错误率
- 模型性能:监控准确性、质量评分和用户满意度
- 成本分析:分析跨模型和提供商的支出模式
- 分布式追踪:通过 OpenTelemetry 集成实现端到端可见性
- 自定义仪表板:在 Prometheus、Grafana 或您首选的监控堆栈中可视化指标
支持的 LLM 提供商
| 提供商名称 | AIServiceBackend 上的 API Schema 配置 | BackendSecurityPolicy 上的上游认证配置 | 状态 |
|---|---|---|---|
| OpenAI | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| AWS Bedrock | {"name":"AWSBedrock"} | AWS Bedrock 凭证 | ✅ |
| Azure OpenAI | {"name":"AzureOpenAI","version":"2025-01-01-preview"} 或 {"name":"OpenAI", "version": "openai/v1"} | Azure 凭证 或 Azure API Key | ✅ |
| Google Gemini on AI Studio | {"name":"OpenAI","version":"v1beta/openai"} | API Key | ✅ |
| Google Vertex AI | {"name":"GCPVertexAI"} | GCP 凭证 | ✅ |
| Anthropic on GCP Vertex AI | {"name":"GCPAnthropic", "version":"vertex-2023-10-16"} | GCP 凭证 | ✅ |
| Groq | {"name":"OpenAI","version":"openai/v1"} | API Key | ✅ |
| Grok | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Together AI | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Cohere | {"name":"Cohere","version":"v2"} 或 {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Mistral | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| DeepInfra | {"name":"OpenAI","version":"v1/openai"} | API Key | ✅ |
| DeepSeek | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Hunyuan | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Tencent LLM Knowledge Engine | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Tetrate Agent Router Service (TARS) | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| SambaNova | {"name":"OpenAI","version":"v1"} | API Key | ✅ |
| Anthropic | {"name":"Anthropic"} | Anthropic API Key | ✅ |
| 自托管模型 | {"name":"OpenAI","version":"v1"} | 无 | ✅ |
前置条件
开始之前,请确保已安装以下工具: