跳到主要内容
版本:开发中 🚧

什么是 MoM 模型家族?

MoM (模型混合) 模型家族 是一个精心挑选的专用轻量级模型集合,专为智能路由、内容安全和语义理解而设计。这些模型为语义路由的核心能力提供动力,实现快速、准确和隐私保护的 AI 操作。

概览

MoM 家族由专门构建的模型组成,用于处理路由管道中的特定任务:

  • 分类模型:领域检测、PII 识别、越狱检测
  • 嵌入模型:语义相似度、缓存、检索
  • 安全模型:幻觉检测、内容审核
  • 反馈模型:用户意图理解、对话分析

所有 MoM 模型都具有以下特点:

  • 轻量级:33M-600M 参数,实现快速推理
  • 专用:针对特定路由任务进行微调
  • 高效:许多模型使用 LoRA 适配器,占用内存极小
  • 开源:可在 HuggingFace 上获取,以实现透明度和自定义

模型类别

1. 分类模型

领域/意图分类器 (Domain/Intent Classifier)

  • 模型 ID: models/mom-domain-classifier
  • HuggingFace: LLM-Semantic-Router/lora_intent_classifier_bert-base-uncased_model
  • 用途:将用户查询分类为 14 个 MMLU 类别(数学、科学、历史等)
  • 架构:BERT-base (110M) + LoRA 适配器
  • 用例:将查询路由到特定领域的模型或专家

PII 检测器 (PII Detector)

  • 模型 ID: models/mom-pii-classifier
  • HuggingFace: LLM-Semantic-Router/lora_pii_detector_bert-base-uncased_model
  • 用途:检测 35 种类型的个人身份信息
  • 架构:BERT-base (110M) + LoRA 适配器
  • 用例:隐私保护、合规性、数据脱敏

越狱检测器 (Jailbreak Detector)

  • 模型 ID: models/mom-jailbreak-classifier
  • HuggingFace: LLM-Semantic-Router/lora_jailbreak_classifier_bert-base-uncased_model
  • 用途:检测提示词注入和越狱尝试
  • 架构:BERT-base (110M) + LoRA 适配器
  • 用例:内容安全、提示词安全

反馈检测器 (Feedback Detector)

  • 模型 ID: models/mom-feedback-detector
  • HuggingFace: llm-semantic-router/feedback-detector
  • 用途:将用户反馈分类为 4 种类型(满意、需要澄清、错误答案、想要不同的答案)
  • 架构:ModernBERT-base (149M)
  • 用例:自适应路由、对话改进

2. 嵌入模型

Embedding Pro (高质量)

  • 模型 ID: models/mom-embedding-pro
  • HuggingFace: Qwen/Qwen3-Embedding-0.6B
  • 用途:支持 32K 上下文的高质量嵌入
  • 架构:Qwen3 (600M 参数)
  • 嵌入维度:1024
  • 用例:长上下文语义搜索、高精度缓存

Embedding Flash (平衡)

  • 模型 ID: models/mom-embedding-flash
  • HuggingFace: google/embeddinggemma-300m
  • 用途:支持 Matryoshka (套娃) 的快速嵌入
  • 架构:Gemma (300M 参数)
  • 嵌入维度:768 (支持通过 Matryoshka 使用 512/256/128)
  • 用例:平衡的速度/质量、多语言支持

Embedding Light (快速)

  • 模型 ID: models/mom-embedding-light
  • HuggingFace: sentence-transformers/all-MiniLM-L12-v2
  • 用途:轻量级语义相似度
  • 架构:MiniLM (33M 参数)
  • 嵌入维度:384
  • 用例:快速语义缓存、低延迟检索

3. 幻觉检测模型

Halugate Sentinel

  • 模型 ID: models/mom-halugate-sentinel
  • HuggingFace: LLM-Semantic-Router/halugate-sentinel
  • 用途:第一阶段幻觉筛查
  • 架构:BERT-base (110M)
  • 用例:快速幻觉检测、预过滤

Halugate Detector

  • 模型 ID: models/mom-halugate-detector
  • HuggingFace: KRLabsOrg/lettucedect-base-modernbert-en-v1
  • 用途:精准幻觉验证
  • 架构:ModernBERT-base (149M)
  • 上下文长度:8192 Tokens
  • 用例:事实准确性验证、基础检查

Halugate Explainer

  • 模型 ID: models/mom-halugate-explainer
  • HuggingFace: tasksource/ModernBERT-base-nli
  • 用途:通过 NLI 解释幻觉推理
  • 架构:ModernBERT-base (149M)
  • 类别:3 (蕴含/中立/矛盾)
  • 用例:可解释 AI、幻觉分析

模型选择指南

按用例

用例推荐模型原因
领域路由mom-domain-classifier14 个 MMLU 类别,LoRA 高效
隐私保护mom-pii-classifier35 种 PII 类型,Token 级检测
内容安全mom-jailbreak-classifier提示词注入检测
语义缓存mom-embedding-light快速,384 维,低延迟
长上下文搜索mom-embedding-pro32K 上下文,1024 维
幻觉检查mom-halugate-detectorModernBERT,8K 上下文
用户反馈mom-feedback-detector4 种反馈类型,ModernBERT

按性能要求

要求模型层级示例
超快 (<10ms)Lightmom-embedding-light, mom-jailbreak-classifier
平衡 (10-50ms)Flashmom-embedding-flash, mom-domain-classifier
高质量 (50-200ms)Promom-embedding-pro, mom-halugate-detector

配置

在路由中使用 MoM 模型

MoM 模型在 router-defaults.yaml 中预先配置:

# Domain classification
classifier:
category_model:
model_id: "models/mom-domain-classifier"
threshold: 0.6
use_cpu: true

# PII detection
classifier:
pii_model:
model_id: "models/mom-pii-classifier"
threshold: 0.9
use_cpu: true

# Jailbreak protection
prompt_guard:
model_id: "models/mom-jailbreak-classifier"
threshold: 0.7
use_cpu: true

自定义模型注册表

在您的 config.yaml 中覆盖默认注册表:

mom_registry:
"models/mom-domain-classifier": "your-org/custom-domain-classifier"
"models/mom-pii-classifier": "your-org/custom-pii-detector"
"models/mom-embedding-pro": "your-org/custom-embeddings"

模型架构

基于 LoRA 的模型

许多 MoM 模型使用 LoRA (低秩适应) 以提高效率:

  • 基础模型: BERT-base-uncased (110M 参数)
  • LoRA 适配器: 每项任务 <1M 参数
  • 内存占用: ~440MB 基础 + ~4MB 每个适配器
  • 推理速度: 与基础模型相同 (CPU 上 ~10-20ms)

ModernBERT 模型

较新的模型使用 ModernBERT 以获得更好的性能:

  • 架构: ModernBERT-base (149M 参数)
  • 上下文长度: 8192 Tokens (对比 BERT 的 512)
  • 性能: 在长上下文任务上具有更好的准确性
  • 用例: 幻觉检测、反馈分类

下一步