“用向量 LLM 做向量化” vs “传统向量化算法”有什么区别?
这里的“传统”一般指两类词袋/TF-IDF、以及经典句向量模型如 word2vec / doc2vec / 早期 sentence embedding。和你现在的 embedding 模型相比主要差异是1) 表达能力语义 vs 关键词embedding 模型你现在更擅长理解“意思相近但字不一样”的问题例用户问“解析域名趋势”就算元数据写的是“解析域名趋势/双折线”也能命中。TF-IDF/关键词更依赖字面重合容易漏掉同义表达但优点是可解释、稳定、便宜。2) 对中文/领域词的适应性现代 embedding如你这个 qwen3-embed对中文语义、句法、同义词通常更强对“自然语言问法”更友好。传统方法需要你做大量分词、同义词表、规则才能接近语义效果。3) 成本与延迟embedding API每次要调接口有网络/服务开销需要超时与降级我已在代码里做了回退。传统算法本地就算几乎零外部依赖延迟极低。4) 结果稳定性embedding 模型通常跨表述更稳但阈值要调模型升级可能改变向量空间需要回归。TF-IDF非常稳定、可控但语义泛化差。结合你现在的代码一句建议短期保持_ChartVectorIndex这种“内存 向量API 回退字符串”的结构很适合你当前规模与“不持久化”的需求。中期多实例/重启不想重算/图表很多再迁到 PostgreSQL pgvector接口不变只替换search()的实现即可。