大量无规则已收录页面如何删除?

原创 福建筑梦SEO  2017-06-13 20:40  阅读 625 views 次
福建筑梦SEO_为你打造会聚流量的网站

昨天,筑梦SEO跟大家分享了之前把新站送到闭站保护的事(注:之所以做闭站保护,是因为个人觉得蜘蛛每天还在不停的爬,抓取了我调整期的页面,就麻烦了),事情的经过基本已叙述清楚,这里就不多说了。但关闭了这个站点,自然不能浪费空间啊,于是,筑梦SEO今天又卷土重来啦!

一早上拿着以前的文件,在本地快速的搭建并处理了下站点内容,切完图,七七八八,站点已初具模型了。

中午上传了网站程序,解析前又仔细检查了下,发现没大碍,就上线了。然后跑到百度去做了个闭站恢复,下午很顺利的上线了。

只是,站点的重新上线,由于与之前站点的URL规则等都有较大的差异性,只能考虑做404删除了。

site百度之后,发现百度还未把这部分页面放出来,看来今天是完不成百度的死链提交了。

接着又site了360,发现360上有306条的链接,最终今天的主角来了!怎么删除这已收录页面的链接呢?

site结果306

    一、有规则死链的批量提交

关于死链提交,百度站长平台上支持规则提交,也就是说类似根目录/news/1.html这类信息可以直接提交根目录/news/进行删除。这对url前后站点设置有区别的朋友可以很简单的实现死链的批量删除。

但是,你以为筑梦SEO就犯了这么简单的事吗?No! no! no!!

在我刚刚上传的这个站点里面也有news这个栏目,用这样规则提交的话,新站点好像也收不了了吧。

    二、无规则死链的批量删除

306条链接,没法使用特定规则进行死链批量提交,批量删除。想想就是件很蛋疼的事。难道站点改版,我还一条条在删除死链吗?在网上收集了大量的信息,发现并不能很好的解决这个问题。

比如建议用奏鸣的,结果一下午也没收到注册验证码,要么就是模拟抓取现在网站上的链接,哥啊,我刚上传的怎么可能有死链呢?

没有头绪!后来好不容易在卢松松上看到篇相关性的文章了,推荐是使用xenu进行链接抓取的。于是赶忙下了下来开始折腾。

检查链接直接输入的是360site结果的起始页:https://www.so.com/s?ie=utf-8&q=site%3Awww.fjzmseo.com(这里是以我站点为例)

抓取结果很快就出来了,如下:

site抓取页面

吐槽一句,因为点选了外链,链接居然抓取了5千余条,抓取完成后,点击导出为制表符分隔的文件。

导出文件txt版本

txt格式怎么看,贴成excel吧。

数据贴成excel

仔细研究了下,发现链接很多是无效的(筑梦SEO自我吐槽下:废话!结果里面就306条是site的收录!)

很轻松的利用文件大小比对,删除了那些不是快照的部分(快照大小都在250K上下)。接着又用替换工具,把常规的360标识去除掉了,获得以下句段:结果提取公式

上述句段中,从html后面开始(准确说是=号后面)就有差异了,没法用替换工具,但是306条也不是小数目啊,一条条点过去,也蛮费事。又观察了下句段的数位,发现字符数是一致的。于是就想到用excel的函数解决。函数就是图中的=LEFT(A4-LEN(A4)-38),其中A4指的是目标单元格,38指的是从右往东减掉38个字符。

终于干净了!妹的,得到了已被360收录的页面(只是都是死链了现在)!

提交死链工具,批量删除死链到此结束!

    福建筑梦SEO每文一结

文章貌似有点乱,但基本上把筑梦SEO今天怎么删除已被360收录页面的流程都写下来了。希望对有类似经历的朋友有个借鉴作用!(还是不要借鉴为好,发生这事不是啥好事情!)

另外,虽然例子是针对360的操作,但百度的操作也是一样的。而且,该流程也适用于部分被黑站点的死链主动删除(不过这种简单多了,site当前网站,出现404的进行筛选即可!)

有疑问的留言交流吧。

本文地址:http://www.fjzmseo.com/376.html
关注我们:加微信,交流更方便:扫描二维码,微信号:13916252714
版权声明:本文为原创文章,版权归 福建筑梦SEO 所有,欢迎分享本文,转载请保留出处!

发表评论


表情