首页 最新段子

大模型对话 
国内:
DeepSeek:使用面广
通义千问:综合能力强
豆包:多模态能力突出,尤其擅长文字、图片、视频混合任务
国外:
ChatGPT:经典,综合能力强
Gemini:擅长长文本分析
Claude:适合逻辑推理、编程任务
θ(theta) 表示角度或方向相关的量
Δ(delta) 表示变化量或差值
查看python版本
python -v 
python --version
import sys
sys.version
# f-string 格式化字符串
print(f"{sys.version}")
向量嵌入(Vector Embeddings)是向量数据库的核心基础,
将非结构化数据转换为高维向量,使其能够在向量空间中进行存储、检索与分析。
通过嵌入技术,文本、图像和音频等数据被映射为语义相关的向量表示,为相似性搜索和数据挖掘提供了可能。
在自然语言处理(NLP)和机器学习领域,
静态嵌入(Static Embeddings) 和动态嵌入(Dynamic Embeddings) 是两种生成词向量的核心技术,
它们的核心区别在于词向量是否会根据上下文动态变化;
简单场景用静态嵌入(如 Word2Vec),复杂场景用动态嵌入(如 BERT)
《向量数据库:大模型驱动的智能检索与应用》
内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,
结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。
通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,
并特别强调企业级语义搜索系统的开发与部署经验。
适合从事搜索引擎与推荐系统开发的工程师,数据科学、人工智能及相关领域的从业者、研究人员,以及对向量数据库与相似性搜索感兴趣的读者
向量数据库是专门存储和检索向量数据(由 AI 模型生成的高维数值向量)的数据库 ,
其核心能力是能够 “快速找到相似向量”,例如找出 “意思相近的句子” 或 “风格相似的图片” ,
与传统数据库(如 MySQL)不同,传统数据库像 “按书名分类的图书馆”,查找特定内容需知道准确书名或作者等信息;
而向量数据库像 “按内容主题分类的图书馆”,用户给出如 “找一本关于魔法学校的书” 这类描述,
它能依据 “内容向量” 相似性,快速找到《哈利波特》《魔法学院》等相关书籍
在海量数据的向量检索中,暴力搜索因计算复杂度较高而难以满足性能需求,
分层定位(Hierarchical Navigable Small World,HNSW)和局部敏感哈希(Locality-Sensitive Hashing,LSH)成为解决高效检索问题的重要技术。
HNSW是一种基于图结构的高效近邻搜索算法,其核心思想是通过构建分层图索引,在高维空间中快速找到近邻向量
局部敏感哈希(Locality Sensitive Hashing,LSH)是一种通过哈希函数对高维数据进行分区,从而实现高效相似性搜索的技术。
LSH的核心在于设计特殊的哈希函数,使得相似的数据点倾向于被分配到相同的哈希桶中,减少搜索范围
HNSW利用分层图结构和高效的搜索路径优化,能够在复杂的高维空间中实现高精度的近邻搜索,其在推荐系统中展现出了显著的效果。
LSH通过哈希函数将向量快速分桶,显著减少了候选向量的数量,适用于大规模数据的快速初筛。
曼哈顿距离又称为“城市街区距离”,通过计算两个点之间在每个维度上的绝对差值之和来测量它们的距离。
其几何意义可以理解为在网格化路径中沿坐标轴移动的总距离,而不是欧氏距离中的直线距离。
曼哈顿距离适用于网格化空间、离散数据和不关注对角线方向的场景,例如物流路径规划、棋盘问题等
杰卡德相似度是衡量集合相似性的重要指标,特别适合用于稀疏向量场景。
稀疏向量通常由高维数据中大部分元素为零的特性构成,例如文本数据的词频矩阵或用户行为矩阵。
通过计算交集与并集的比例,杰卡德相似度能够有效评估稀疏向量之间的相似性。
杰卡德相似度定义为两个集合交集的大小除以并集的大小,例如用户行为分析和文本检索。
杰卡德相似度因其适用于稀疏向量的特点,在推荐系统中具有重要意义
向量化将原始数据(文本、图片等)映射到高维向量空间(常见维度有 128 维、512 维、768 维等),
每个数据对应空间中的一个点,点之间的距离(或夹角)反映数据的语义相似性 。
向量数据库的核心能力之一是 “快速计算两个向量的相似度”,最常用的算法是余弦相似度(Cosine Similarity) 
两个向量在空间中的夹角越小,其相似度越高
近似最近邻(ANN)算法
若直接计算所有向量的余弦相似度,检索效率会很低,例如处理 100 万向量时,计算量将达到 100 万次 。
为提升检索速度,向量数据库采用近似最近邻(ANN, Approximate Nearest Neighbor)算法 。
该算法通过构建索引(如树形结构或图结构),快速缩小搜索范围,虽然会牺牲一点精度,
但时间效率大幅提升,且误差可控制在 1% 以内 。
常见的 ANN 算法有:
FAISS(Facebook 开源):采用倒排文件 + PQ 量化,适合大规模数据处理;
HNSW(层次化可导航小世界图):利用图结构连接相似向量,适合实时检索场景 。
FAISS(Facebook AI Similarity Search)作为一款高效的向量搜索工具,在大规模高维数据的索引与检索中展现了卓越的性能。
FAISS是一个开源的向量检索库,专为高效的相似性搜索和密集向量聚类任务设计,适用于大规模数据集处理场景,
FAISS支持多种索引类型,用于满足不同场景下的向量检索需求。
Flat索引以高精度著称,但计算量较大,适合小规模数据集;
IVF(Inverted File)索引通过分区减少计算量,适合中等规模的数据场景;
HNSW(Hierarchical Navigable Small World)索引则在大规模高维向量检索中展现出了高效性。
Milvus作为一款开源的向量数据库,专为高性能、高可用的向量数据管理与检索设计,已成为处理海量非结构化数据的核心工具之一。
其架构融合了分布式存储与索引机制,通过模块化设计实现了存储、计算和检索的高效协同
LangChain 是 “LLM 的操作系统”,负责调度 LLM 与外部世界的交互;
LlamaIndex 是 “私有数据的翻译器”,负责让 LLM 理解和使用人类世界的知识。
实际项目中,两者往往互补,共同构成 LLM 应用的基础设施
金融市场收益率往往呈现 “肥尾” 特征(极端涨跌的概率远高于正态分布预测),
例如 2008 年金融危机、2020 年疫情暴跌等 “黑天鹅” 事件;
因此,概率分析需结合历史数据修正分布,避免低估极端风险
概率与统计学是金融分析的 “量化基石”:
它们将模糊的 “感觉” 转化为可衡量的 “概率”,将杂乱的数据提炼为可分析的 “规律”,帮助投资者更理性地评估风险、制定策略

第一页 上一页 下一页 最后一页