• 首页
  • 服务项目
  • 优化案例
  • SEO技术资讯
  • 联系我们
登录 | 注册
  • 首页
  • 服务项目
  • 优化案例
  • SEO技术资讯
  • 联系我们
登录 | 注册

零基础也能使用的SEO爬虫公式

栏目:常见问题 文章出处:网络 人气:0 发表时间:04-23

零基础也能使用的SEO爬虫公式

  Keen

  读完需要

  6分钟

  速读仅需2分钟

  你有没有遇到过这样的问题,网页里面有几百个网址链接,需要你统计下来,你会一一粘贴复制到表格里吗?

  或者要统计公司潜在客户的邮箱,需要通过关键词去搜索,然后每个网页都要点击进去,找找看有没有邮箱呢?

  对于上面这张种大批量重复的工作,难道就没有更好的、快捷的、简单的解决方案吗?

  当然是有的,今天这篇文章将给你分享——如何利用简单爬虫解决重复大量的工作。

  不过,在进入教程之前,我们要聊聊:

  什么是爬虫

  简单来说,爬虫就是一种网络机器人,主要作用就是搜集网络数据,我们熟知的谷歌和百度等搜索引擎就是通过爬虫搜集网站的数据,根据这些数据对网站进行排序。

  既然谷歌可以利用爬虫搜集网站数据,那我们是否能利用爬虫帮我们搜集数据呢?

  当然是可以的。

  我们可以用爬虫做什么

  前面已经讲过,如果你遇到一些重复大量的工作,其实都可以交给爬虫来做,比如:

  ?搜集特定关键词下的用户邮箱?批量搜集关键词?批量下载图片?批量导出导入文章?……

  比如我想搜索iphonecase的相关用户邮箱,那么可以去Google搜索iphonecase这个关键词,然后统计下相关网页,把网址提交给爬虫程序,接着我们就等着出结果就行了。

  当然,创作一个特定的爬虫程序需要一定的技术基础,市面上主流都是使用python来制作爬虫程序,不过我们今天用一个更简单易懂的爬虫软件——GoogleSheet,不用写任何代码的哦!

  利用GoogleSheet爬取数据

  Googlesheet(以下简称GS)是Google旗下的在线办公套件之一,和微软的办公三剑客正好一一对应:

  ?Googledoc-Word?Googlesheet-Excel?Googlepresentation-PPT

  基本上Excel上的公式都可以在GS上运行,不过GS还要另外一个公式,是Excel不具备的,也就是

  IMPORTXML

  我们新建一个GS,这个操作和Execl操作一致,然后在A1栏输入我们需要爬取数据的网址,记得网址必须包含https或http,只有这种完整写法才会生效。

  然后在B1栏输入

  =importxml(A1,''//title")

  在B1栏输入完成之后我们就会得到如下数据

  这样就获得了网址的SEOTitle。

  SEOTitle出现在每个浏览器窗口的标签处,也是网站呈现给Google搜索引擎的第一登陆点,里面包含该网页的关键词等重要信息。

  接下来我们在C1栏输入如下公式:

  =IMPORTXML(A1,"'description']/@content")

  然后我们就获得了网页的MetaDescription

  我们能看到,刚才搜集的两个信息就是GoogleSERPs中很重要的两个元素,Title和Description,基本上要做好站内SEO,这两点要做好。

  批量爬取网页SEO信息

  按照上面的两个公式,我们分别在A1B1C1栏中输入网址、Title、Description,然后A列填满想要爬取的网址,B列和C列利用Excel的复制下拉选项,就是鼠标放到C1栏的右下角出现十字标识后,往下拉动鼠标,C列的其他栏会自动填充好C1的公式:

  然后我们就得到了所有网址的Title和Description

  统计完这些数据之后,我们之后就再也不用愁怎么写SEOTitle啦。

  如果大家想爬取整个网址的Title与Description,可以把竞品的网址全部放上来。至于如何获取整个网址的链接,大家可以去查一下网址的sitemap.xml,在这里面可以找到一个网站所有的链接。

  了解公式结构

  既然importxml可以批量爬取SEOTitle,那么当然也是可以爬取其他内容的,比如邮箱地址与链接地址,我们先来分析一下公式结构:

  =IMPORTXML(A1,"default")

  A1表示所在列,default表示需要爬取的页面内容结构,所以我们只要修改default值,就能够爬取更多信息,这里给大家展示一下我们在做SEO和统计信息中常用的值

  站内链接,其中的domain.com换成要统计的域名

  //a[contains(@href,'domain.com')]/@href

  站外链接,其中的domain.com换成要统计的域名

  //a[not(contains(@href,'domain.com'))]/@href

  邮箱统计:

  //a[contains(@href,'mailTo:')orcontains(@href,'mailto:')]/@href

  社交链接,包括linkedin,fb,twitter

  //a[contains(@href,'linkedin.com/in')orcontains(@href,'twitter.com/')orcontains(@href,'facebook.com/')]/@href

  如果你想了解更多能使用的爬虫公式,可以参考Google官方文档

  

  也可以深入了解一下xpath

  

  (来源:外贸增长官)

  以上内容属作者个人观点,不代表雨果网立场!本文经原作者授权转载,转载需经原作者授权同意。

  上雨果网搜索“跨境资料库”,领取欧美/东南亚各国市场商机、各大平台热销品报告、跨境电商营销白皮书!

最新资讯

零基础也能使用的SEO爬虫公式
集齐这4款SEO 神器,助你抢占先机
零售业SEO战略的10个基本优先事项
限行!晴天霸屏,沧州的关键词依然是炎热
陕西营销网站推广优化是如何实现的
除了SEO,还可以这样提高企业博客网站流量和价值
降低网站页面相似度,SEO更上一层楼
阿里国际站运营篇:SEO关键词优化时应该避免的几个错误
阿里巴巴诚信通之“注重两大秘籍,让你的新品排名优化更靠前”
阿里巴巴早期成功靠SEO,老板需要知道低成本流量的重要性

推荐内容

网站优化过程中影响网站的跳出率的三要素是什么?
乘风破浪的关键词|谷歌SEO三大核心之一
SEO课堂,这样做不怕没有排名
SEO新手学习网站优化的一些建议,大牛可以补充哦
五大理由告诉你为什么要做SEO
SEO站群优化好不好做?几个优质的站群优化方式分享
上饶SEO|上饶网站优化|上饶网站建设
今天呢我为大家分享一下企业为什么要做seo推广
SEO利器,未注册老域名挖掘软件神器在此!请收下
某企业服务平台SEO案例

超速排致力于为企业提供系统化的智能优化解决方案,不断深入研究SEO优化技术,关键词优化排名技术,努力让所有客户轻松完成关键词排名到首页。

SEO技术资讯

  • SEO技术
  • 行业资讯
  • 常见问题

联系我们

  • 客服QQ:29380611
  • mail:admin@baidu.com
  • 电话:137XXXXXXXX
  • 立即咨询

  • 售前客服QQ:29380611
  • 立即咨询
ChaoSuPai.Com快速排名系统 © 2015-2023年 粤ICP备16097096号-5 广州市莫方信息科技有限责任公司 超速排 版权所有
               官方已经暂停该功能,等待官方启用后再用        


Recent Search Keywords

  • Business
  • Web Development
  • SEO
  • Logistics
  • Freedom