使用squid搭建http代理的方法

近期在做一些基础设施搭建的过程中,又遭遇到了公司http代理的问题。主要是很多主机上的工具只支持不带身份鉴权信息的http_proxy设置,如只 支持诸如:export http_proxy='http://10.10.1.1:8090',而不支持export http_proxy='http://tonybai:passwd@10.10.1.1:8090'这种形式的配置。

或是其命令行选项中只提供了proxy_host和proxy_port两个选项,但并不支持携带鉴权信息。而公司内部要访问外部信息还必须通过公司的带 有身份鉴权的代理服务器,总而言之,弄得我十分不爽。于是乎产生一个想法:是否可以搭建一个内部http中间代理,部门内部主机通过不带身份鉴权信息的代 理配置访问该中间代理,而该中间代理将内部的所有http request都转发到公司代理,同时携带配置好的身份验证信息。

对http代理这事,我完全是个小白啊,于是乎Google开来(恰逢最近Google还不给力,原因你懂的)。

最先试用了一下tinyproxy,这个工具挺小巧简单,在ubuntu下通过apt-get 可直接安装,/etc/tinyproxy/tinyproxy.conf的配置也很简单明了。但配置文件中涉及到转发到upstream proxy server的配置行只支持"Upstream host:port"而不支持"Upstream tonybai:passwd@host:port"形式,并且也没有其他地方支持身份鉴权信息的配置。在其官方bugzilla上有很多人反映这一情 况,但其最新版本似乎也没有将这个功能加入,十分遗憾!

于是乎打算换一个重量级的代理工具-nginx。Ubuntu 9.04下默认安装的nginx是0.65版本。nginx功能虽强大,配置倒并不那么“复杂”,但问题在于nginx本身似乎更专注于负载均衡和反向代 理,而满足我这个问题场景的资料甚少。nginx配置命令和变量太多,要想短时间搞清楚这些变量的含义还真是一件困难事。照猫画虎的尝试了几种配 置,也均未能成功。翻阅了国内唯一一本nginx书籍 – 《实战nginx》,但无奈太厚,翻了三章,索性放下了。换工具!

最传统的开源免费http代理工具莫过于squid了。估计其市场占有率也是名列前茅的。Ubuntu 9.04下默认安装的squid是2.7版本,不算很老,squid官方站至今还提供2.7版本详细的配置文档。但squid默认的配置文件可是超级庞 大,总共有近5k行,虽然绝大部分内容都是被注释掉的。于是乎先用命令过滤出未注释行,这些行是真正生效的配置。

关于squid如何将收到的http request转发到带身份鉴权的上级http proxy server,网上的信息也较少,不过还是让我发现一条。按照这条配置建议做了尝试。/etc/squid/squid.conf的配置摘要如下:

access_log /var/log/squid/access.log squid
debug_options ALL,1
hosts_file /etc/hosts
coredump_dir /var/spool/squid

acl all src all
acl manager proto cache_object
acl localhost src 127.0.0.1/32
acl to_localhost dst 127.0.0.0/8 0.0.0.0/32

acl localnet src 10.0.0.0/8 # RFC1918 possible internal network
acl localnet src 172.16.0.0/12 # RFC1918 possible internal network
acl localnet src 192.168.0.0/16 # RFC1918 possible internal network

http_port 10.10.13.17:3128

http_access allow localnet
http_access allow localhost
http_access deny all

cache_peer proxy.yourcompany.com parent port_of_company_httpproxy 0 no-query default login=user:passwd
never_direct allow localnet

配置后,重启squid(sudo /etc/init.d/squid restart)。将Chrome浏览器的代理配置改为该代理,尝试打开"baidu.com",陷入漫长等待。于是打开squid的访问日志/var /log/squid/access.log,看到如下失败信息:

1353476636.008 0 10.10.13.235 TCP_DENIED/400 1709 GET error:invalid-request – NONE/- text/html
1353476657.337 1 10.10.13.235 TCP_DENIED/400 1709 GET error:invalid-request – NONE/- text/html
1353476691.420 0 10.10.13.235 TCP_DENIED/400 1678 GET error:invalid-request – NONE/- text/htm

居然出错!换成IE浏览器,现象一样,都是这种错误。在/var/log/squid/cache.log中,还能发现下面错误:

2012/11/21 13:43:56| clientTryParseRequest: FD 12 (10.10.13.235:4247) Invalid Request

不断的修改squid.conf配置,不断地修改浏览器代理配置,不断的失败。总是修改浏览器的代理配置让我感觉十分费劲,于是我换用curl工具来测试 该代理。curl是可以识别http_proxy环境变量的。将http_proxy环境变量改为export http_proxy=http://10.10.13.17:3128,在命令行敲入curl http://baidu.com,居然得到下面结果:

$ curl http://baidu.com
<html>
<meta http-equiv="refresh" content="0;url=http://www.baidu.com/">
</html>

再回到access.log观察,居然看到了下面成功日志:

1353476863.916 0 10.10.13.235 TCP_HIT/200 677 GET http://baidu.com/ – NONE/- text/html

于是又尝试用wget下载外部文件、用subversion访问外部svn repository、rvm安装ruby包均告成功!这不就是我想要的结果吗!居然被我误打误撞到了!虽然到目前为止我仍然不知道为何浏览器发出的http request不能被识别^_^。

Squid这个http代理功能十分强大,本身就是被很多企业作为公司级http代理的工具的。其配置参考足足可以写成一本厚厚的书(市面上已经有这种书),还好我的场景用不到那些稀奇古怪的配置,目前这种状态足矣!