kfreedom

https://bbs.aboluowang.com/?27830

浅谈穿越GFW技术及其控制方法

已有 1673 次阅读2012-8-30 09:27

摘要：本文分析了GFW所采用的主要技术，介绍了几种突破GFW封锁的软件及其技术原理，并针对它们使用的技术介绍了相应的控制方法，并进一步分析了可能的突破封锁的技术。
关键词：GFW；加密代理；穿越；破网控制；透明Web Cache

[编辑] 一、引言

WWW空前广泛的应用，正在影响和改变人们的生活方式。但在WWW庞大的网络信息空间中，夹杂着大量的有害信息，主要包括：垃圾信息、虚假信息、政治渗透信息、种族歧视信息和恶意代码等，这些信息的泛滥对Internet造成了严重的信息污染。
对网络空间的监控能有效地阻止有害信息的传播，控制计算机犯罪。放置在可信任网络和不可信任网络之间的防火墙，是运用非常广泛和效果最好的选择[1]。 Internet可以分为国内网络与国外网络两部分。由于各国的安全策略各不相同，因此不同的国家对有害信息的认定有不同的标准。对于我国来说，不良信息主要集中在国外网络。防止信息污染不仅要保证国内网络空同的洁净，同时要防止国外网络不良信息的侵蚀。目前我国的国际互联网出口的核心节点设在北京、上海和广州，国内的计算机信息网络进行国际联网，必须使用国家公用电信网提供的国际出入口信道。为了有效的控制信息流动，在出口处安装了防火墙[2]。
防火长城，也称中国防火墙或中国国家防火墙，这是对“国家公共网络监控系统”的俗称，是指中华人民共和国政府在其管辖互联网内部建立的多套网络审查系统的总称，包括相关行政审查系统。其英文名称Great Firewall of China，缩写为GFW[3]，国内简称“防火长城”，国外也叫“功夫网”。

[编辑] 二、GFW及其主要技术

[编辑] 1、概述

GFW主要指公共网络监控系统，尤其是指对境外涉及敏感内容的网站、IP地址、关键词、网址等的过滤。GFW的效果通常为，国内网络用户无法访问某些国外网站或者网页；或者国外网络用户无法访问国内的某些网站或者网页。这里的无法访问，有永久性的无法访问（比如某些色情网站），也有因为URL中含有敏感关键词或者网页上有敏感内容而暂时性的无法访问。国家防火墙并非中国的专利。其他国家也有类似的防火墙，对危害其国家安全的信息进行侦听，而中国的国家防火墙会直接切断敏感连接。伊朗、巴基斯坦、乌兹别克斯坦、北非共和国、叙利亚、缅甸、马尔代夫、古巴、北韩、南韩、沙特阿拉伯、阿拉伯联合酋长国、也门使用与GFW类似的国家防火墙。以下是猜想的GFW 工作原理图[5]。

[编辑] 2、GFW所采用的关键技术

[编辑] （1）、国家入口网关的IP封锁

从90年代初期开始，中国大陆只有教育网、高能所和公用数据网3个国家级网关出口，我国政府对认为违反国家法律法规的站点进行IP封锁，这是有效的封锁技术。对于IP封锁，用普通Proxy技术就可以绕过。只要找到一个普通的海外Proxy，然后通过Proxy就可以浏览自己平时看不到的信息了。所以，网络安全部门现在通常会将特别反动的网站的网址加入关键字过滤系统，以防止网民透过普通海外HTTP代理服务器访问。
一般情况下，GFW对于海外非法网站会采取独立IP封锁技术。然而，部分非法网站使用的是由虚拟主机服务提供商提供的多域名、单（同）IP的主机托管服务，这就会造成了封禁某个IP，就会造成所有使用该服务提供商服务的其他使用相同IP的网站用户一同遭殃，就算是内容健康、正当的网站，也不能幸免。例如如森美的个人网站，内容并无不当之处，但网站使用的是虚拟主机托管服务，而因为有一个香港BBS亦使用该托管服务，这就造成了 GFW为了封锁该BBS，直接把这个固定IP：203.80.210.5封禁了。随之，有82个香港网站由于GFW封锁了这个IP地址，不论合法与否，都不能在中国大陆访问。

[编辑] （2）、主干路由器关键词过滤拦截

主干路由器关键字过滤拦截在2002年左右开始，中国公安部门研发了一套系统，并规定各个因特网服务提供商必须使用。思科等公司的高级路由设备帮助中国大陆实现了关键字过滤，最主要的就是IDS（Intrusion Detection System）--- 入侵检测系统。它能够从计算机网络系统中的关键节点（如国家级网关）收集分析信息，过滤、嗅探出指定的关键字，并进行智能识别，检查网络中是否有违反安全策略的行为。
IDS主要进行IP数据包内容的过滤，如果符合既定的规则，则向该连接两端的计算机发送IP RST包，这可以从前后IP报头TTL值相差较大的特点可推测出来，用这种方法干扰两个通信终端间的正常TCP边接，使数据流中断，而在终端主机上会显示连接失败。这种关键字过滤-重置技术只对TCP连接有效。而广泛应用的HTTP协议正是使用TCP作为传输层协议，从目前来看，GFW对HTTP报文的过滤仅限于HTTP头，通常URL请求就位于HTTP的头部分，而GFW对HTTP数据部分很可能不作过滤，这正是某些用PHP编写的HTTP在线代理能避开关键词过滤的原因，例如PHProxy，它将明文的URL请求放在HTTP数据部分，而不是放在HTTP的头部。对UDP（DNS通常使用 UDP，GFW对捕获的DNS查询报文也进行关键词过滤并返回伪DNS响应，但因UDP没有复位标志而无法进行传输层的干扰）及其他第四层协议无效，对明文数据有效，对加密数据无效。不同的IDS有可能在一段预定或随机的时间内持续干扰刚刚被中断的两计算机间的所有TCP通信。所以在访问境外网站时，如果数据流里有敏感字词，即会立即被提示“该页无法显示”或网页开启一些后突然停止，随后在1-3分钟或更长时间内无法用同一IP浏览此域名或IP地址上的内容，屏蔽时间可能与敏感词等级以及所属网站有关。此种过滤是双向的，也就是说，国内含有关键词的网站在国外不可访问，国外含有关键词的网站在国内不可访问。以上所述的技术，也称为域名劫持，原理如下图所示。

某些特定的海外网站网址会被列入关键词过滤，即使IP地址未被封锁，也不能访问。不过，GFW对于网页中含有的关键词字符并不是100%可以过滤成功，即使某些网页被成功过滤并导致“该页无法显示”，此时只要在浏览器进行多次刷新就有机会显示出来。而且，GFW还会偶尔出现故障而导致关键词过滤系统失效，此时部分只被网址关键词过滤的网站就能正常使用。
对于Google.com的查询返回结果可能是专门过滤的，即GFW针对Google.com返回结果中的网页地址进行过滤，对关键词的过滤并不严格。
从GFW的分布来看，审查过滤系统主要位于国际出口处，但最近通过对审查过滤系统返回的RST复位包IP头进行TTL值分析，发现存在两个欺骗源，其一位于国际出口处，另一个位于骨干网省级接入处。因此推测GFW对于境内的非法内容也具有一定审查能力。对于境内网络内容的审查可能主要是通过 ICP备案来实现的。
从2007年2月前后，GFW开始对境外及境内的WAP网站含有的敏感字符进行过滤，原本在移动版Google可以打开的维基百科中文版现已不能通过Google网页转换功能进行访问，连带的就是在访问含有“zh.wikipedia.org”的Google连结后，5分钟内再次访问 Google被拦截。
关键字过滤的弱点就是对已加密的信息无能为力，而网址的关键字和网页的关键字都可以用不同的手段来加密，从而使这样的信息过滤系统从根本上失去作用。不同的加密手段也是后来所有突破网络封锁软件的基础。

[编辑] （3）、关键词过滤-复位包分析

有些网站含有大量的有用信息，同时也夹杂着大量的有害信息，如Google搜索引擎，如果使用域名重定向、lP地址过滤或者URL过滤都会禁止用户访问合法的信息。在这种情况下，可以使用基于内容的过滤，即只屏蔽掉含有有害信息的页面。
通常使用网址的关键字和网页的关键字过滤的方法屏蔽有害页面。防火墙建有一个敏感词词库，一旦网址或Web页面中的内容含有这个词库中的词时，防火墙将截获该网页，阻止对该页面的访问。
这种过滤是一种细粒度的过滤，实际上是对报文数据内容的过滤。在应用层可以实现对URL的过滤以及报文内容的过滤。应用层有害内容过滤不可避免地降低了互联网的通行效率，并且一般其有较大的误报率，但总的来说监控效果较好。
当前基于内容的过滤主要针对文本内容，对图像、音频、视频等多媒体内容的过滤仍未达到实用阶段。
由文[7]的试验，可得GFW具体的过滤方式：采用嗅探软件记录HTTP客户端进出站数据包，且只考虑TCP连接。从进站RST复位包IP 头TTL域值的分析，可认为逻辑上存在两个欺骗源（实际可能只是初始TTL不同），可分别称为“伪源1”和“伪源2”，伪源1离客户端路由跳计数较大，逻辑位置大致在因特网运营商国际出口处，伪源2离客户端路由跳计数较小，逻辑位置大致在因特网运营商骨干网省级节点处。

[编辑] 1）IP头部分：

Identification（标识）字段：在第一批RST包中，伪源1和伪源2将其设置为一个固定的值，而正常的处理方式是发送的每个IP报文都有不同的标识值，一般按生成次序递增。观察中发现伪源2的第二批RST包中该域值会改变。
Flags（分片标志）字段：伪源1和伪源2处理方式不同，例如伪源1将DF（不分片）标志置0，伪源2将DF标志置1。
Time to Live（生存时间）字段：如前所述，伪源1的RST包到达客户端PC时经过的跳计数较大，而伪源2较小，且可推测与真正的源物理位置有差距。

[编辑] 2）TCP头部分：

Sequence number（序列号）字段：关键词过滤系统很可能会偶而繁忙导致本地出口堵塞，以致RST包发送延迟并晚于真正的源发回的数据包到达客户端PC，造成 RST包被客户端PC丢弃，从而整个过滤干预行为失败。考虑到这个因素，伪源还具有序列号预测功能，例如伪源2相邻的3个RST包中该值分别相差 1460（以太网默认MSS值）和2920（即1460*2）。
Window size（窗口大小）字段：伪源1和伪源2处理方式不同，例如伪源1似乎为该字段设置了一个随机值，伪源2将其置0。正常的RST包是将该字段置0。此外还包括HTTPS证书过滤、对破网软件的反制、对电子邮件的通讯的拦截等技术。
从以上的分析可知，GFW的主要技术手段大概有两种：
1）、IP封锁这种方法主要针对国外知名的新闻网站，比如：http://news.bbc.co.uk /，http://wikipedia.org等，从技术上直接禁止了国内对这些IP地址的访问，或者利用的是国内的域名解析服务，可以将某些网站导向到广告网站或者警告网站。但是，这样的手段只能是重点防卫，而不能全面使用。为了规避IP封锁，只能通过借用国外代理服务器的方式，以国外的代理服务器为跳板，间接的访问这些被封锁的网站，具体的工具如无界浏览器、加拿大大学研究人员开发的Psiphon等。
2）、关键字过滤
针对多若繁星的个人网站，博客网站，社群网站，采用IP封锁的方法就不合适了，对这些网站的防卫主要依靠关键字过滤，比如说，一旦发现内容中包含了china，中国共产党这样的关键字，就切断连接。但是，这种技术手段很难在骨干网和骨干路由器上实现，否则骨干路由器的负担太重，难以保持合理的运行速度。所以，一般的做法是在接入网末端部署具备关键字过滤功能的防火墙，一旦检测到不和谐的关键字，这些防火墙就向两端都发送TCP RST包，让两端的机器以为连接中断了，实际上，原始的TCP包已经通过了防火墙，路本来是通的，只是亮了一下红灯，如果假装没看到红灯，闭着眼睛走过去，反而不会有任何障碍。

[编辑] 三、几种破网软件的原理

早期的破网软件都是普通代理工具的进一步完善。因为当时还没有采用内容和网址的过滤技术，所以只要找到合适的代理，在浏览器中设置代理服务器和端口，基本就可以畅通无阻。这些工具擅长于代理的搜索、校验和动态切换，比较有代表性的是“代理猎手”和“MultiProxy”等[6]。
2002年采用关键字过滤技术后，各种加密的代理也就应运而生了。其中比较有名的是SSL加密页面代理，它能够根据用户的请求，把其他网站的内容抓过来，然后用SSL的加密传递给用户。用户使用加密代理，就能够浏览其他各种被审查封锁的网站，而所有的信息都是加密传输的，包括网址URL。但随着软件升级，金盾可以嗅出个别固定域名网站的证书，维基百科443端口的SSL加密浏览也被封住了。
此外利用服务端和客户端的软件，自己定义加密手段，把服务端软件安装在海外的机器后，就可以用客户端软件加密浏览海外的信息了。随着各种加密代理的成熟，它们互相之间也开始吸取各自的长处，有些甚至在易用性上进展很大，做到了用户点击运行就可以自由浏览的程度。
使用这些技术的软件包括无界浏览，自由门，花园软件，世界通，火凤凰等等。其中前三个被称为“破网三剑客”。它们的基本工作原理基本上是一样的：运行软件后自动寻找预置软件服务器列表中的代理服务器，通常寻找最快的那几个，连接成功后自动设置IE，使IE成为代理访问模式。这样就可以直接用 IE访问几乎任何网站了。通过代理返回的数据包经过加密，可以有效穿过关键词的过滤，达到可以访问任何信息的目的。这些软件里内置的代理服务器大多设置在国外。

代理服务器可以用于突破防火墙对IP的封锁。如上图所示。但是要突破GFW对海外网站的封锁，一般的代理就远远不够了。

路过

鸡蛋

鲜花

握手

雷人

收藏分享邀请举报

全部作者的其他最新日志

发表评论评论 (3 个评论)

彩虹炫 | 匿名卡 | Adeal 2013-3-8 19:43: I was drawn by the hoentsy of what you write

彩虹炫 | 匿名卡 | bmusodrhr 2013-3-11 20:52: iZL5yG <a href="http://izulmveemrst.com/">izulmveemrst</a>

彩虹炫 | 匿名卡 | cxbweplb 2013-3-13 09:56: ekPE8w , [url=http://smdisjerxenb.com/]smdisjerxenb[/url], [link=http://zygomxxtjipy.com/]zygomxxtjipy[/link], http://ohwalslppilk.com/

账号		自动登录	找回密码
密码			注册