答案:(1)从SiteURL中抽取一个或多个目标链接写入 URL 队列,作为爬虫爬取信息的起点。(2)爬虫的网页分析模块从URL队列中读取链接。(3)从Internet中获取该链接的网页信息。(4)从网页内容中抽取所需属性的内容值。(5)将获取的网页内容值写入数据库的Content,并将此URL存入SpiderURL。(6)从当前网页中抽取新的网页链接。(7)从数据库中读取已经爬取过内容的网页地址,即SpiderURL中的链接地址。(8)将抽取出的URL和已经抓取过的URL进行比较,以过滤URL。(9)如果该网页地址没有被抓取过,则将该地址写入SiteURL;如果该地址已经被抓取过,则放弃存储此网页链接。