Пример конфига Privoxy
Не выложит ли кто-нибудь конфиг для Privoxy, позволяющий фильтровать скрипты, узнающие мой броузер, систему и так далее?
|
||||||||||||||||||||||||
|
||||||||||||||||||||||||
Нормы пользования. Некоторые права на материалы сайта защищены по условиям лицензии CreativeCommons. Движок
openSpace 0.8.25a и дизайн сайта © 2006-2007 Vlad "SATtva" Miller.
|
||||||||||||||||||||||||
комментариев: 1515 документов: 44 редакций: 5786
Некто Сергей Карпов с МГУ форкнул проект links, приделав к нему много всяеских
вкусностей типа табов и значительно улучшив внешний вид. В частности, появилась
возможность менять поле "браузер", хотя возможности ставить proxy для https,
отсутсвие каковой приводит к дискредитации анонимности не появилось.
Сайт проекта здесь.
С моей точки зрения заголовки теперь "более" анонимные. Я изменил только поле
"браузер" и поставил дефолтный конфиг privoxy для фильтрации банеров – после
этого диагностика сайта выдаёт вот что:
COLLECTED INFORMATION
Reported remote address
193.205.94.231
Browser
high-perfomance special browser
It's probably
Netscape v 4.x or higher
OS
Windows
Referer
proxy://localhost:8110/ht...l
AtGuard/NIS or Proxomitron used
yes
Client's address we got
193.205.94.231
Client's hostname
Cannot be resolved
Preferable mail server
smtp.unicam.it
А даигностика самой privoxy вот какие:
This is Privoxy 3.0.6 on localhost (127.0.0.1), port 8110, enabled
Show-Request
Here you see the original headers that your client sent when requesting this page, along with the headers that Privoxy would have sent to the remote server if this request hadn't been intercepted.
Original Client Request:
GET http://config.privoxy.org/show-request HTTP/1.1
Host: config.privoxy.org
User-Agent: high-perfomance special browser
Referer: proxy://localhost:8110/http://.....oxy.org/show-request
Accept: */*
Accept-Encoding: bzip2, gzip
Accept-Charset: us-ascii, ISO8859-1, ISO8859-2, ISO8859-3, ISO8859-4, ISO8859-5, ISO8859-6, ISO8859-7, ISO8859-8, ISO8859-9, ISO8859-10, ISO8859-13, ISO8859-14, ISO8859-16, ISO8859-17, windows-1250, windows-1251, windows-1252, windows-1256, windows-1257, cp437, cp737, cp850, cp852, cp866, x-cp866-u, x-mac, x-mac-ce, x-kam-cs, koi8-r, koi8-u, TCVN-5712, VISCII, utf-8
Proxy-Connection: Keep-Alive
Pragma: no-cache
Cache-Control: no-cache
Processed Request:
GET /show-request HTTP/1.1
Host: config.privoxy.org
User-Agent: high-perfomance special browser
Referer: proxy://localhost:8110/http://.....oxy.org/show-request
Accept: */*
Accept-Encoding: bzip2, gzip
Accept-Charset: us-ascii, ISO8859-1, ISO8859-2, ISO8859-3, ISO8859-4, ISO8859-5, ISO8859-6, ISO8859-7, ISO8859-8, ISO8859-9, ISO8859-10, ISO8859-13, ISO8859-14, ISO8859-16, ISO8859-17, windows-1250, windows-1251, windows-1252, windows-1256, windows-1257, cp437, cp737, cp850, cp852, cp866, x-cp866-u, x-mac, x-mac-ce, x-kam-cs, koi8-r, koi8-u, TCVN-5712, VISCII, utf-8
Pragma: no-cache
Cache-Control: no-cache
Connection: close
P. S.: если сторонними средствами закрыть 443-й порт то в 1-м приближении можно гонять под тором :-)
Хотя на сайте писали что есть там проблемы с безопасностью в https (я не вникал подробно,
но возможно это относится только к случаю когда https реально используется с важным
сайтом, а не когда вообще кто-то захочет установить https пытаясь разрушить анонимность.
Другими словами говоря, если сознательно https ни одного сайта вам не нужен, то на это можно
забить а на анонимность под тором это не повлияет если я прав).
комментариев: 1515 документов: 44 редакций: 5786
комментариев: 11558 документов: 1036 редакций: 4118
комментариев: 1515 документов: 44 редакций: 5786
чем-нибудь более распространённым? А то псевдоним получается.
ну это я так, для теста :-)
Сначала я написал high-perfomance BSD-class browser, но распознавалка выцепила
отсюда слово BSD и прописала его как мою ОС в результатах (видать, скрипт туп :-))
В данном случае мне вообще всё равно что там пишется когда не под тором – даже
лучше если правда (NetBSD, links), чтоб статистика на сайтах адекватно считалась.
Но заменить "windows", по-видимому, нельзя.
Кстати, мне кажется что он какой-то неадекватный относительно типичного. Это не так?
Сильно интересует слово crunch! что оно значит? Я полностью анонимно хожу? Или эта страница узнала мой реальный IP???
комментариев: 1515 документов: 44 редакций: 5786
комментариев: 9796 документов: 488 редакций: 5664
Это значит, что баннер со счётчиком от рэмблера успешно вырезан.
1) Предлагаю в фак по привокси добавить ссылочку http://privoxy.org.ru/
2) Вопрос к уважаемому all`у:
Как сабжем вырезать из страницы тег типа
<meta name="robots" content="noindex, nofollow, noarchive" />
а то httrack читает его в обязательном порядке и отказывается далее индексировать. Причем это – неотключаемо (намертво прописано в коде – такова политика авторов качалки).
Просьба – указать явно в каком виде и куда это ставить.
Ессно, тег может несколько отличаться, но поле name="robots" – однозначно и неизменяемо.
Следовать правилам из robots.txt
Не подчинятся правилам robots.txt
комментариев: 11558 документов: 1036 редакций: 4118
<meta name="robots" content="noindex, nofollow, noarchive" />Фигачим самым простым регэкспом:
В default.filter
Код:
В user.action
Код:
Гостю:
robots.txt из _корня_ он читает всегда, НЕЗАВИСИМО от указанных вами настроек. Почитайте форум и документацию на сайте качалки – там это неоднократно написано разработчиками.
Тогда, может патчь склепать? Чтоб раз и навсегда?
комментариев: 61 документов: 47 редакций: 68
В документации почему-то этого не нашёл:там постоянно твердят что для скачивания полного снимка сайта надо указать опцию игнорирования robots.txt
Constantine_ru, не могли бы дать конкретную ссылку, где прямо говорится о текущем состоянии по этому вопросу?
PS. Не понимаю я этих людей, с какого рожона, в интернете должны соблюдатся законы их стран? В моей стране таких ограничений нет
Сталкивался с этим и в виндовой, и в юниксовой версиях – сколько и каким образом ни ставишь запрет на чтение\игнорирование файла (и соотв. метатегов) – это относится ЛИШЬ к нижележащим слоям (если там есть робот.txt), а из корня читает _всегда_ и по-любому. На разных сайтах одно и то же.
Httrack читает и выполняет не толкьо robots.txt, но и метатеги типа вышеуказанного, т.е. запретить читать мало, надо полностью блокировать.
Во всяком случае, только после вышеозначенных манипуляций, я смог скачать интересующие меня сайты.
Кстати, задавал им вопрос насчет (на ломаном английском :) этого, ответа не получил.
Я уже подумывал сделать форк проекта :). Но – я не программер, да и с выходом новых версий придется делать новый патч, вероятно. Конечно, интереснее развивать свое, но ... не до этого. Возможно, в будущем... :))))