“而y搜,是通过大模型分析学习目前互联网上十七亿个网页的数据连接,针对于哪些链接的质量可能更高进行概率性的判定,依据这种概率,给出搜索结果。”
“因此,y搜并不需要特别多的服务器来存储这些网页具体数据,只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”(注1)
“当用户进行搜索的时候,大模型会自动依据用户的意图或自己的判断,给出其认为符合用户需求的链接。”
“至于说爬取频率的问题,其实这并没有这么难,根据internet1ivestats实时数据,互联网目前有13亿网页,其中百分之五十都是空链接或失效链接。”
“去掉这些,只有六亿多,六亿的链接中,又有接近四个亿网页是‘非活跃网站’。”
“橘子的算法是依据‘数据标记’进行判断,已经爬取的‘数据标记’并未改变的情况下并不会重复爬取,在‘数据标记’被改变后,橘子大模型才会主动爬取更新的网页,确保自身的数据处于最新,同时再新建一个‘数据标记’。”
“这种技术的好处在于,我们不需要像千寻和古狗一样,建立那么多那么大的数据中心。”
“一个占地两万平米的单层数据中心,应该就足够满足全大周用户的搜索需求,投入可能只相当于古狗的百分之一不到,目前y搜使用的是阿狸云。”
“当然,如果还要开其他业务的话,比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能,还是需要很大的数据中心来做支撑。”
“另外这个技术还有一个好处就是非常便于审核和过滤,在审核过滤规则确定的情况下,y搜可以更为精准的过滤需要审核的信息,避免误伤。”
“aI时代,未被污染的数据太重要了,但现在大周互联网上的周文数据污染情况过于严重,训练大模型的效果很差。”
“这其中相当一部分是由于审核误伤所导致的,造成周文数据可训练度差,因此在y搜的算法之下,可以精准识别需要过滤的搜索结果,降低97。98%的数据误伤。”
“这一条虽然短时间内看不出来什么,但时间长了,对整个大周的互联网数据资源都有相当大的好处。”
“带宽和千寻目前的带宽需求相差不大,毕竟数据的传输和返回都是需要带宽的,但这部分成本对于搜索引擎来说,占比本身就不大。”
“这种技术最大的难点在于,大多数网页的变化是难以精确预估的,且需要一个可靠的爬取策略来保持数据的时效性,并且保障链接和生成索引之间的准确性。”
“但好在,在这方面我们取得了一些突破,当然,具体的算法涉及机密,就不和二位介绍了。”
“正因为各方面的成本都节省了,即使y搜不上市,我也能维持这个搜索引擎的正常运营。”
雷君看着方豫的手机屏幕,就像在看外星人:“你的意思是,y搜是一个伪装成搜索引擎的大模型?”
短短几个月时间,aI就把搜索引擎行业颠覆了?
这是什么样的进化度!?
有可能做到吗?
如果是真的,那下一个即将被颠覆的行业又是哪一个?
雷君突然感觉有些庆幸,还好自己的小米选择的是硬件创业,能成为aI的载体。
如果当初选择进入什么移动互联网软件创新领域,现在估计已经开始担心的睡不着觉了吧?
方豫立刻纠正雷君的说法:“不,只能算是融合了aI功能的搜索引擎。”
过犹不及,把aI融合进搜索引擎是一回事,但搜索引擎本身就是aI大模型是另一回事。
现在大多数人对aI还处于知道有这回事,但还没有切身感受的阶段。
这时候如果他们现自己日常使用的搜索功能从根本上的运行逻辑都变了,必然会对aI产生警惕心理。
到时候,说不准搞出什么事情来。
方豫言辞恳切:“涉及尚未公开的技术信息,因为信任雷总不是喜欢八卦的人,才会告诉雷总,还请雷总帮我保密。”
雷君苦笑两声,他现在还真的有点相信方豫的确是没想让y搜上市了。
这种模式下,运营一个全网覆盖的搜索引擎门槛被大幅拉低了,就算柚子科技这种刚刚迈入独角兽的初创公司,同样也能进入这个领域。
不,不能算是被拉低了,能够构建和预训练出一个这样的大模型本身就是门槛。
尤其方豫所说的那几个算法,理论上是可行的,但也只是理论上。
如果这几个算法这么容易搞,还有千寻和古狗什么事儿啊,这两家公司早就被颠覆了。
但居然就被柚子科技这么一个小公司搞出来了!
再转头看看周授兹,雷君在自己的小兄弟的眼神中看到了从未见到的热切和企盼。
雷君心里叹了口气,倒是没有怪周授兹。
任谁看了这种完全颠覆未来的愿景,也不可能不动心。
“小方同学,如果是这样的话,也并不是一定要授兹过去吧?你不上市,授兹去了没有用武之地,千寻和古狗应该有很多更适合的人才。”