中文搜索引擎的十大误区
误区1:网站目录就是搜索引擎 网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能。网站目录就是搜索引擎的名词始于雅虎,雅虎初创时就是只有一个网站目录。当然很快就通过外包的形式增加了网页级的搜索。中文网站提供目录搜索的远多于提供网页搜索的,加之媒体的各种炒作,许多网民误以为网站目录的搜索功能就是搜索引擎。在美国,因特网搜索引擎通常指的是收集了因特网上几千万到几亿个网页并对网页中的每一个词进行索引的搜索服务系统,是基于网页的全文检索系统。
误区2:搜索引擎就是门户站点 如果你要提供搜索服务,大家就认为你是一个门户网站,你就要吸引用户、提高页视率(PageView)。实际上,搜索引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜索服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。
误区3:搜索引擎的概念已经过时 搜索引擎是互联网上最先商业化的一个应用服务,它对于帮助网民快速寻找到所需要的信息非常关键。因特网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM 最高可达70美元;所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。根据中国互联网信息中心(CNNIC)2000年1月的统计结果,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用。
误区4:中文搜索引擎技术已经成熟 不要说中文,即使英文的搜索引擎也没有发展成熟。这一方面表现在新的搜索引擎公司层出不穷,如Google, Ask Jeeves等;另一方面更表现在美国前三大网站都外包了它们的网页搜索部分。实际上,美国在线、雅虎和微软网络的搜索服务都是由一家叫Inktomi 的公司提供的。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。之所以有人会有搜索引擎技术已经成熟的概念,其实是因为网站门户公司意识到了它们的长处并不是搜索技术的创新,而是互联网上大众品牌的建立。中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。百度公司结合硅谷搜索引擎人才精英,依托北京最优秀的软件人才,开发了大型商业化的中文搜索引擎,中文搜索从此与英文站在了同一起跑线上。
误区5:中文搜索引擎速度很慢 某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),如AltaVista或Openfind等, 由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对ASP 所致。
误区6:中英文混合检索词是不被支持的 当你输入“MP3” 时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;更多的网页搜索服务不能对“甲A”、“F-1一级方程式”等中英混合查询作出恰当的反应。然而搜索技术并非对此无能为力,百度搜索就完全解决了中英文混查的问题。
误区7:中文搜索引擎的相关性无法与英文相媲美 中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。中文搜索的相关性完全可以与英文媲美。百度搜索使用了目前国际上先进的搜索引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜索的相关性问题。
误区8:用户要找的信息在网上不存在 目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。另外很多搜索引擎不支持新的中文编码标准,如“GBK”。例如“朱镕基”的“镕”字不在GB2312的字符集中,但是却在GBK编码中可以找到,许多搜索引擎由于不支持GBK,因而用“朱镕基”无法找到有关的网页。所以许多网上存在的信息在当前的主要搜索引擎中无法找到很可能是因为您用的搜索引擎不好,而不是因为您要找的信息在网上不存在。
误区9:搜索引擎数据更新最快要30天 对于那些依靠海外服务器提供检索的网站来说,这也许是对的;网易掌门丁磊辞职的消息传出后的三个星期内,各大门户网站的网页搜索服务都无法查到任何相关的网页。但这绝不是说及时更新数据是做不到的。百度搜索就巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。
误区10:搜索引擎不能查找动态生成的网页 目前世界上没有一家主要的搜索引擎支持动态网页,因为大多数负责搜索网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大势所趋,ASP、 PHP、 JSP 等编程工具日益流行,解决动态网页查找的问题已经是人心所向。百度在这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜索引擎来查找动态生成的网页已经不是神话。
误区2:搜索引擎就是门户站点 如果你要提供搜索服务,大家就认为你是一个门户网站,你就要吸引用户、提高页视率(PageView)。实际上,搜索引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜索服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。
误区3:搜索引擎的概念已经过时 搜索引擎是互联网上最先商业化的一个应用服务,它对于帮助网民快速寻找到所需要的信息非常关键。因特网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM 最高可达70美元;所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。根据中国互联网信息中心(CNNIC)2000年1月的统计结果,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用。
误区4:中文搜索引擎技术已经成熟 不要说中文,即使英文的搜索引擎也没有发展成熟。这一方面表现在新的搜索引擎公司层出不穷,如Google, Ask Jeeves等;另一方面更表现在美国前三大网站都外包了它们的网页搜索部分。实际上,美国在线、雅虎和微软网络的搜索服务都是由一家叫Inktomi 的公司提供的。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。之所以有人会有搜索引擎技术已经成熟的概念,其实是因为网站门户公司意识到了它们的长处并不是搜索技术的创新,而是互联网上大众品牌的建立。中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。百度公司结合硅谷搜索引擎人才精英,依托北京最优秀的软件人才,开发了大型商业化的中文搜索引擎,中文搜索从此与英文站在了同一起跑线上。
误区5:中文搜索引擎速度很慢 某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),如AltaVista或Openfind等, 由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对ASP 所致。
误区6:中英文混合检索词是不被支持的 当你输入“MP
误区7:中文搜索引擎的相关性无法与英文相媲美 中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。中文搜索的相关性完全可以与英文媲美。百度搜索使用了目前国际上先进的搜索引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜索的相关性问题。
误区8:用户要找的信息在网上不存在 目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。另外很多搜索引擎不支持新的中文编码标准,如“GBK”。例如“朱镕基”的“镕”字不在GB2312的字符集中,但是却在GBK编码中可以找到,许多搜索引擎由于不支持GBK,因而用“朱镕基”无法找到有关的网页。所以许多网上存在的信息在当前的主要搜索引擎中无法找到很可能是因为您用的搜索引擎不好,而不是因为您要找的信息在网上不存在。
误区9:搜索引擎数据更新最快要30天 对于那些依靠海外服务器提供检索的网站来说,这也许是对的;网易掌门丁磊辞职的消息传出后的三个星期内,各大门户网站的网页搜索服务都无法查到任何相关的网页。但这绝不是说及时更新数据是做不到的。百度搜索就巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。
误区10:搜索引擎不能查找动态生成的网页 目前世界上没有一家主要的搜索引擎支持动态网页,因为大多数负责搜索网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大势所趋,ASP、 PHP、 JSP 等编程工具日益流行,解决动态网页查找的问题已经是人心所向。百度在这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜索引擎来查找动态生成的网页已经不是神话。