写给新读者的导航 你好啊朋友,我是江浩,一名AI大陆的探险者,目前主要关注向量数据库和大语言模型领域。 在博客里,我会探秘AI神奇能力的背后原理。别担心,我会用有趣的言语和生动的类比来解释这些原理。你是否好奇,孙悟空 + 红楼梦 - 西游记 = ?那就来了解下向量嵌入吧。当你接触到向量嵌入后,你可能会问,既然已经有了稠密向量,为什么还需要稀疏向量?嗯,如果说稠密向量是领域专家,那么稀疏向量就是一个聪明的门 2025-01-07 杂谈
语义搜索效果差?试试重排 前段时间我开发了一个用白话文搜索语义相近的古诗词的应用(详见: 如何假装文艺青年,怎么把大白话“变成”古诗词?),但是有时候搜索结果却不让人满意,排名靠前的结果和查询的语义没啥关系,靠后的结果反而和查询更相似。比如,我用白话文“今天的雨好大”搜索,前三个结果是: 今日云景好,水绿秋山明。今日风日好,明日恐不如。雨落不上天,水覆难再收。 前两个都和雨没有关系,第三个勉强沾边。 为啥语义更相近的句 2025-01-15 向量数据库 > 原理探秘
门外汉如何“冒充”专家?向量嵌入之稀疏向量 在 孙悟空 + 红楼梦 - 西游记 = ?向量嵌入之稠密向量 这篇文章中,我们已经知道了文本怎么变成稠密向量,并且还能够表达文本的语义。但是,对于嵌入模型的“专业领域”外的文本,它的效果不尽如人意。 打个比方,假设你身体不舒服去看医生,医生完全理解你的描述,他会判断病因然后做出诊断。但是,如果你问医生“人工智能如何影响汽车行业?”,医生大概会觉得你不仅身体不舒服,脑子也需要治一治。医生不 2024-12-11 向量数据库 > 原理探秘
鲁迅到底说没说?RAG之分块 鲁迅说,“世上本没有路,走的人多了,也便成了路。”。鲁迅说,“我家墙外有两株树,一株是枣树,还有一株也是枣树。”鲁迅还说,“猛兽总是独行,牛羊才成群结对。”网络上流传着鲁迅说过的各种名言,我们不禁怀疑,鲁迅到底说没说?原文是什么样的,出处又在哪里?想回答这个问题,最好的办法就是搜索原文。但是,使用传统搜索方式,错了一个字可能就搜索不到,不如试试语义搜索吧。 我们可以把鲁迅作品集向量化,储存到向量数 2024-10-29 向量数据库 > 原理探秘
孙悟空 + 红楼梦 - 西游记 = ?向量嵌入之稠密向量 一起来开个脑洞,如果孙悟空穿越到红楼梦的世界,他会成为谁?贾宝玉,林黛玉,还是薛宝钗?这看似一道文学题,但是我们不妨用数学方法来求解:孙悟空 + 红楼梦 - 西游记 = ? 文字也能做运算?当然不行,但是把文字转换成数字之后,就可以用来计算了。而这个过程,叫做 “向量嵌入”。为什么要做向量嵌入?因为具有语义意义的数据,比如文本或者图像,人可以分辨相关程度,但是无法量化,更不能计算。比如,对于一组词 2024-10-11 向量数据库 > 原理探秘
如何假装文艺青年,怎么把大白话“变成”古诗词? 午后细雨绵绵,你独倚窗边,思绪万千,于是拿出手机,想发一条朋友圈抒发情怀,随便展示一下文采。奈何好不容易按出几个字,又全部删除。“今天的雨好大”展示不出你的文采。你灵机一动,如果有一个搜索引擎,能搜索出和“今天的雨好大”意思相近的古诗词,岂不妙哉! 使用向量数据库就可以实现,代码还不到100行,一起来试试吧。我们会从零开始安装向量数据库 Milvus,向量化古诗词数据集,然后创建集合,导入数据,创 2024-09-16 向量数据库 > 趣味应用