当前位置: 江南文明网 > 科技 >

文心一言和 GPT-4 快救救搜索引擎吧

条评论

文心一言和 GPT-4 快救救搜索引擎吧

巧了不是,昨天 OpenAI 刚公布了 GPT-4(现在已经集成到微软新 Bing),今天百度就发布了“文心一言”,不久之后也将集成到百度搜索引擎当中。搜索领域已经很久没有这么热闹了。

图片来源 Giphy

不妨想想看,在拥有了 AI 语言对话功能的百度搜索中问它:“李彦宏为啥能青春永驻呢?”它会怎么回答,会不会给你推荐抗衰医美医院?

过去几周,“脑力劳动者”尝到这一轮AI技术爆发和信息搜索产品相结合的甜头,发现拿来做“个人助理”,做些苦活累活也还不错。

当你有疑问,不想查大量的文献资料,它替你查,并且“消化”完讲“人话”总结给你。在新 Bing 界面中,你现在最多一次可以跟它对话 15 轮。它有“理解”上下文的能力,所以你可以追问一个未被解答清楚的疑问。

跟新 Bing 对话丨图片来源微软 Bing

这是与传统搜索引擎在体验上最大的区别。进一步解释,新 Bing的工作原理是,将用户的问题,转化为“搜索语句”。在传统搜索引擎里进行搜索,找到资料,结合用户位置、时间信息,以及上下文,有针对性地为用户的问题,给出一个回复,同时把参考资料源标出来。

被人诟病的是,它参考的源质量没有保障,有大量 UGC(普通用户生产的内容),和未经权威认证的内容。然后它就拿着这些东西,“胡编乱造”。

但它至少态度好。想想也就算了,毕竟才“刚毕业”。人们一下子就把它和传统的搜索引擎对比起来。对于完全公开的事实,信息查询,它至少帮你节省了查、读材料的时间。

这样下去的话,传统搜索引擎就会被“抛弃”吗?它是怎么慢慢变得越来越难用的?

搜索引擎是怎么工作的

人们一直在想办法得到更准确的答案。在万维网还没有出现以前,人们依赖ftp协议共享文件资源。当有一个可搜索的文件名列表(叫Archie)出现——你得一字不差地输进去文件名,返回的是一个能下载该文件的ftp地址。

Archie丨图片来源 Twitter @Newegg

听起来就很费劲,但毕竟刚1990年,人们才开始“搜索”互联网。由此被引出的对网页搜索的需求,让开发者们想到两种解决办法。

其中一种,是通过人力收录和汇编URL(学名是统一资源定位器,可以理解成就是网址),比如曾经被大家所熟悉的Yahoo;另外一种,他们开发一个查找万维网的自动程序,并将匹配用户搜索的查找结果返回。这种自动程序叫做爬虫。

爬虫bot丨图片来源 101 Computing

并不是接收到用户查询指令后,爬虫去海量的万维网中找“答案”,而是爬虫定期去爬新的网页,收集到原始页面数据库里,再进行预处理,最后根据查询关键词,对网页排序后返回。由于数据的储存限制,起先没有能力保存下爬取到的所有数据,只爬URL、标题和简介。后来能爬全文的爬虫出现,才更为接近如今的搜索引擎的概念。

想知道“为什么给这些网页排在第一页?”,得先知道搜索引擎是怎么工作的。

像上文提及,爬虫做完了第一步的收集工作,要对数据做预处理,比如:去重,把营销号内容删除,判断一个后收集来的网页,是不是抄袭的,等等。

然后怎么能快速“匹配”呢?还得把数据分类。搜索引擎在处理页面,和用户搜索时,都是以词为基础的。