对于做seo或者推广、网络编辑的人员,或者一些普通的网民来说,有时需要对一些喜欢的网页文档内容进行复制保存下来,以备以后可以查阅。但是有些网站涉及一些版权、隐私等因素影响,是不能进行直接复制的,其主要采用的方法和手段与网站类型有很大关系,目前网页文档内容不能被复制的主要原因和技术手段主要有以下几个方面:9MK中国设计秀
第一类:代码或者源码程序控制
这类是最常见的网页不能被复制的类型,主要采用的技术手段就是通过一些程序源码进行权限控制,防止内容被人盗取。比如知名的一些小说站红袖添香或者起点小说网等都是采用的这类的技术手段,当你把鼠标光标放在网页上时候,左键和右键都被禁止了,这时候你是无法直接进行复制的,不信你可以去红袖添香小说站去试试。
面对这类的技术,其实有非常多的方法可以破解。比如禁止JS代码、在快照中进行复制、在一些搜索引擎(比如搜狗)的预览中可以进行复制,或者干脆把IE浏览器的安全性提高到最高等级,禁止代码加载和cookie也可以直接进行复制。
(图)搜狗浏览器可以直接点击预览
第二类:图片化技术
如果一个网页都是文字时候,我们复制很容易的,但是有图片就不一定了。比如烟雨红尘小说网,他们就采用了文字图片化的技术来防止复制,另外可以通过调整图片背景等方法,你即使把图片和文字一起复制走,在一个其他的背景下阅读也很困难,所以这类的仅仅靠复制就不行了。
文档文字图片化是需要消耗一些服务器带宽的,但是还是有很多原创内容站选择了这样的技术,其目的很显然的就是复制别人的采集和复制。面对图片化的技术壁垒,目前最好的解决方法就是通过ORC软件进行图片识别(我们
seo论坛有这个软件的),也可以直接手工把图片化的文字打出来。
无论采用什么样的方式,图片化的文档文字提取都是耗时耗力的一件事情。但是反过来说,这个技术目前已经非常的成熟了,我们原创内容站也可以采用这样的方式防止垃圾站的采集。
第三类:非同步式调用的,比如采用ajax技术或者其他技术调用的。
对于这类调用的一些文档文本,有时候也是无法进行直接复制的,你虽然可以看到文字,但是在源码里是没有的,你也无法通过键盘的快捷键或者鼠标进行直接的复制,这类最好的就是找到真正的数据源在哪里,在数据源里直接复制。
第四类:非txet/html输出格式的
我们知道一般性的文档网页,内容都是支持的text/html的数据传输格式,但是一些站却不是这样的,比如豆丁文库和百度文库、百度网盘等。这类网页的文档内容虽然可以直接看到,但是都是镶嵌在swf这类的格式内的,因此根本无法直接进行复制。
遇到文库类的网页,可以直接进行下载文档进行备用,但是有时候有可能需要一些积分这类的才能下载,而你没有那么多的积分时候该怎么办呢?其实还有一些其他的技巧获得这类内容的,比如在快照里查看,因为文档内容必须被百度蜘蛛抓取了才有排名和意义,而蜘蛛也会接受转码输出后的文档并且存在数据库内,所以只要一个网页的文档是可以被抓取的,收录后都可以在快照内容进行复制。如果没有收录的话,也可以利用模拟蜘蛛抓取工具进行抓取,可以先获得网页的源码,获得源码后生成网页进行复制也是不错的选择。
还有一些其他的新技术和方法,也是可以防止复制或者采集的,比如discuz论坛都直接带有防止复制的功能,disucz和dedecms都含有加干扰码防止复制和采集功能等,这些功能的都是采用消耗一部分的服务器性能来换取不能复制的功能的,所以采用这些功能有得也有失。
防止采集和复制原来只是为了防止版权问题,后来却演变为防止
seo的利器,但是古语说杀敌一万自损三千,起源
seo学堂呼吁广大的
seoer保持一个好的操守,尊重原创作者的劳动,不要过度采集和复制文章。