欢迎登陆真网站,您的到来是我们的荣幸。 登陆 注册 忘记密码? ☆设为首页 △加入收藏
欢迎加入真幸福QQ群
电脑知识: 基础知识 网络技术 操作系统 办公软件 电脑维修 电脑安全 windows7 windows8 windows10 服务器教程 平板电脑 视频播放教程 网络应用 互联网 工具软件 浏览器教程 QQ技巧 输入法教程 影视制作 YY教程 wps教程 word教程 Excel教程 PowerPoint
云南西双版纳特产小花糯玉米真空包装


支付宝钱包新增无忧停车功能
chm是什么文件?
dmg是什么文件?
Windows XP停止更新还能用吗?
三大Windows系统解析及“双系统”五大优势
docx是什么文件?
电脑没声音怎么办?
支付宝1分钱抢5元红包怎么抢?
天猫宝怎么转到支付宝?
国美全民抢红包怎么抢?
百度谷歌等大型网站收录网页提交入口地址
【 来源:网络 】【 点击:1 】 【 发布时间:2017_03_03 08:59:59 】

 百度谷歌等大型网站收录网页提交入口地址 三联

  搜索引擎

  搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。

  工作原理

  第一步:爬行

  搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

  第二步:抓取存储

  搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

  第三步:预处理

  搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

  ⒈提取文字

  ⒉中文分词

  ⒊去停止词

  ⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)

  5.正向索引

  6.倒排索引

  7.链接关系计算

  8.特殊文件处理

  除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

  第四步:排名

  用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

本网站由川南居提供技术支持,fkzxf版权所有 浙ICP备12031891号