Пример конфига Privoxy

Не выложит ли кто-нибудь конфиг для Privoxy, позволяющий фильтровать скрипты, узнающие мой броузер, систему и так далее?

На страницу: 1, 2, 3, 4 След.

Комментарии

—	spinore (29/04/2007 14:02, исправлен 29/04/2007 14:13) профиль/связь <#> комментариев: 1515 документов: 44 редакций: 5786

Интересная информация для тонких ценителей извращений:

Некто Сергей Карпов с МГУ форкнул проект links, приделав к нему много всяеских
вкусностей типа табов и значительно улучшив внешний вид. В частности, появилась
возможность менять поле "браузер", хотя возможности ставить proxy для https,
отсутсвие каковой приводит к дискредитации анонимности не появилось.
Сайт проекта здесь.

С моей точки зрения заголовки теперь "более" анонимные. Я изменил только поле
"браузер" и поставил дефолтный конфиг privoxy для фильтрации банеров – после
этого диагностика сайта выдаёт вот что:

COLLECTED INFORMATION
Reported remote address
193.205.94.231
Browser
high-perfomance special browser
It's probably
Netscape v 4.x or higher
OS
Windows
Referer
proxy://localhost:8110/ht...l
AtGuard/NIS or Proxomitron used
yes
Client's address we got
193.205.94.231
Client's hostname
Cannot be resolved
Preferable mail server
smtp.unicam.it

А даигностика самой privoxy вот какие:

This is Privoxy 3.0.6 on localhost (127.0.0.1), port 8110, enabled
Show-Request
Here you see the original headers that your client sent when requesting this page, along with the headers that Privoxy would have sent to the remote server if this request hadn't been intercepted.
Original Client Request:
GET http://config.privoxy.org/show-request HTTP/1.1
Host: config.privoxy.org
User-Agent: high-perfomance special browser
Referer: proxy://localhost:8110/http://.....oxy.org/show-request
Accept: */*
Accept-Encoding: bzip2, gzip
Accept-Charset: us-ascii, ISO8859-1, ISO8859-2, ISO8859-3, ISO8859-4, ISO8859-5, ISO8859-6, ISO8859-7, ISO8859-8, ISO8859-9, ISO8859-10, ISO8859-13, ISO8859-14, ISO8859-16, ISO8859-17, windows-1250, windows-1251, windows-1252, windows-1256, windows-1257, cp437, cp737, cp850, cp852, cp866, x-cp866-u, x-mac, x-mac-ce, x-kam-cs, koi8-r, koi8-u, TCVN-5712, VISCII, utf-8
Proxy-Connection: Keep-Alive
Pragma: no-cache
Cache-Control: no-cache
Processed Request:
GET /show-request HTTP/1.1
Host: config.privoxy.org
User-Agent: high-perfomance special browser
Referer: proxy://localhost:8110/http://.....oxy.org/show-request
Accept: */*
Accept-Encoding: bzip2, gzip
Accept-Charset: us-ascii, ISO8859-1, ISO8859-2, ISO8859-3, ISO8859-4, ISO8859-5, ISO8859-6, ISO8859-7, ISO8859-8, ISO8859-9, ISO8859-10, ISO8859-13, ISO8859-14, ISO8859-16, ISO8859-17, windows-1250, windows-1251, windows-1252, windows-1256, windows-1257, cp437, cp737, cp850, cp852, cp866, x-cp866-u, x-mac, x-mac-ce, x-kam-cs, koi8-r, koi8-u, TCVN-5712, VISCII, utf-8
Pragma: no-cache
Cache-Control: no-cache
Connection: close

P. S.: если сторонними средствами закрыть 443-й порт то в 1-м приближении можно гонять под тором :-)
Хотя на сайте писали что есть там проблемы с безопасностью в https (я не вникал подробно,
но возможно это относится только к случаю когда https реально используется с важным
сайтом, а не когда вообще кто-то захочет установить https пытаясь разрушить анонимность.
Другими словами говоря, если сознательно https ни одного сайта вам не нужен, то на это можно
забить а на анонимность под тором это не повлияет если я прав).

—	spinore (29/04/2007 14:22) профиль/связь <#> комментариев: 1515 документов: 44 редакций: 5786

да, забыл сказать: JS по умолчанию там выключен но это не мешает почему-то работать с форумами. И при его включении инфа идентификации, кажется, никак не изменяется.

—	SATtva (29/04/2007 16:02) профиль/связь <#> комментариев: 11558 документов: 1036 редакций: 4118

Accept-Charset впечатляет! :-) Только может быть "high-perfomance special browser" в User-Agent заменить чем-нибудь более распространённым? А то псевдоним получается.

—	spinore (29/04/2007 16:32) профиль/связь <#> комментариев: 1515 документов: 44 редакций: 5786

>Только может быть *high-perfomance special browser* в User-Agent заменить

чем-нибудь более распространённым? А то псевдоним получается.

ну это я так, для теста :-)
Сначала я написал high-perfomance BSD-class browser, но распознавалка выцепила
отсюда слово BSD и прописала его как мою ОС в результатах (видать, скрипт туп :-))
В данном случае мне вообще всё равно что там пишется когда не под тором – даже
лучше если правда (NetBSD, links), чтоб статистика на сайтах адекватно считалась.
Но заменить "windows", по-видимому, нельзя.

>Accept-Charset впечатляет! :-)

Кстати, мне кажется что он какой-то неадекватный относительно типичного. Это не так?

—	Сергей_Викторович (15/06/2007 00:14) <#>

Подскажите пожалуйста что означает эта строка:

Jun 14 23:05:22 Privoxy(00000140) Request: counter.rambler.ru/top100.cnt?972096 crunch!

Сильно интересует слово crunch! что оно значит? Я полностью анонимно хожу? Или эта страница узнала мой реальный IP???

—	spinore (15/06/2007 01:39) профиль/связь <#> комментариев: 1515 документов: 44 редакций: 5786

Я не знаю что это озаначает в контексте логов privoxy но думаю что что-то типа того, что кто-то запросил страницу counter.rambler.ru/top100.cnt?972096 и потому ушёл найух ибо нечего. То есть типа всё нормально.

—	unknown (15/06/2007 08:53) профиль/связь <#> комментариев: 9796 документов: 488 редакций: 5664

counter.rambler.ru/top100.cnt?972096

Это значит, что баннер со счётчиком от рэмблера успешно вырезан.

—	Constantine_ru (25/06/2007 07:41) <#>

Приветстсую всех.
1) Предлагаю в фак по привокси добавить ссылочку http://privoxy.org.ru/

2) Вопрос к уважаемому all`у:
Как сабжем вырезать из страницы тег типа
<meta name="robots" content="noindex, nofollow, noarchive" />
а то httrack читает его в обязательном порядке и отказывается далее индексировать. Причем это – неотключаемо (намертво прописано в коде – такова политика авторов качалки).
Просьба – указать явно в каком виде и куда это ставить.
Ессно, тег может несколько отличаться, но поле name="robots" – однозначно и неизменяемо.

—	Constantine_ru (25/06/2007 08:40) <#>

И заодно: где и как блокировать вообще доступ в интересующих доменах к файлу robots.txt? Я прописал в user.action в секции { +block } строку .\.load_domain.com.robots\.txt – так верно? Или можно просто *load_domain.com/*robots.txt – ?

—	*Гость* (25/06/2007 19:53) <#>

http://localhost:8080/server/option8.html
Следовать правилам из robots.txt
Не подчинятся правилам robots.txt

—	SATtva (25/06/2007 21:15) профиль/связь <#> комментариев: 11558 документов: 1036 редакций: 4118

~~<meta name="robots" content="noindex, nofollow, noarchive" />~~
Фигачим самым простым регэкспом:

<meta name="robots".*?>

—	Constantine_ru (26/06/2007 18:43, исправлен 26/06/2007 21:09) <#>

да, спасибо. На форуме указанного сайта также подсказали:

В default.filter
Код:

FILTER: meta-robots
s|<meta\s+name="robots"[^>]+>||ig

В user.action
Код:

{+filter{meta-robots}} 
.site.com

Гостю:
robots.txt из _корня_ он читает всегда, НЕЗАВИСИМО от указанных вами настроек. Почитайте форум и документацию на сайте качалки – там это неоднократно написано разработчиками.

—	*Гость* (26/06/2007 21:52) <#>

> robots.txt из _корня_ он читает всегда...

Тогда, может патчь склепать? Чтоб раз и навсегда?

—	mellon (27/06/2007 03:03, исправлен 27/06/2007 03:10) профиль/связь <#> комментариев: 61 документов: 47 редакций: 68

Заинтерисовался, так как сам активно пользую.

В документации почему-то этого не нашёл:там постоянно твердят что для скачивания полного снимка сайта надо указать опцию игнорирования robots.txt

Constantine_ru, не могли бы дать конкретную ссылку, где прямо говорится о текущем состоянии по этому вопросу?

PS. Не понимаю я этих людей, с какого рожона, в интернете должны соблюдатся законы их стран? В моей стране таких ограничений нет

—	Constantine_ru (27/06/2007 04:24) <#>

Хм... счас глянул по форуму, увы – не нашел поста. Могу только порекомендовать залезть на их форум и почитать (куча постов) результаты поиска по слову robots.txt. (помню что видел где-то у них, но где и как)

Сталкивался с этим и в виндовой, и в юниксовой версиях – сколько и каким образом ни ставишь запрет на чтение\игнорирование файла (и соотв. метатегов) – это относится ЛИШЬ к нижележащим слоям (если там есть робот.txt), а из корня читает _всегда_ и по-любому. На разных сайтах одно и то же.
Httrack читает и выполняет не толкьо robots.txt, но и метатеги типа вышеуказанного, т.е. запретить читать мало, надо полностью блокировать.
Во всяком случае, только после вышеозначенных манипуляций, я смог скачать интересующие меня сайты.
Кстати, задавал им вопрос насчет (на ломаном английском :) этого, ответа не получил.

Я уже подумывал сделать форк проекта :). Но – я не программер, да и с выходом новых версий придется делать новый патч, вероятно. Конечно, интереснее развивать свое, но ... не до этого. Возможно, в будущем... :))))

На страницу: 1, 2, 3, 4 След.

Ваша оценка документа [показать результаты]