Courier Mail Server Forum Index Courier Mail Server
www.courierms.ru
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

v2,3| Программы анализа работы CMS

 
Post new topic   Reply to topic    Courier Mail Server Forum Index -> Готовые решения
View previous topic :: View next topic  
Author Message
GrAnd
CMS Master
CMS Master


Joined: 21 Oct 2005
Posts: 766
Location: г. Коломна

PostPosted: 31 Oct 2007 17:07 (Wed)    Post subject: v2,3| Программы анализа работы CMS Reply with quote

Когда я только устанавливал у себя первые версии CMS, почтовый трафик был таким мизерным, что с помощью просмотрщиков логов можно было отслеживать его работу практически в реальном времени.
С тех пор воды утекло много, а спама пришло еще больше, поэтому в многомегабайтных файлов отчетов (это на каждый день!) разобраться вручную практически невозможно. Особенно это касается статистики возникновения каких-либо ситуаций. Пока проанализируешь логи хотя-бы за 1-2 недели, нужда в таком анализе отпадет, т.к. ситуация изменится. Вот и возникает необходимость автоматизировать рутинную работу обработки логов.
Как ни странно, но иногда удается действительно из логов найти что-то интересное и полезное.
Вот и решил я для таких утилит создать отдельный топик. Авось пригодится.

_________________
Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец!
Back to top
View user's profile Send private message
GrAnd
CMS Master
CMS Master


Joined: 21 Oct 2005
Posts: 766
Location: г. Коломна

PostPosted: 31 Oct 2007 17:25 (Wed)    Post subject: Reply with quote

CMS Antispam statistic - эта утилита написана PWL. Ее назначение - определение частоты срабатывания различных правил антиспама. Позволяет обнаружить "мертвые" и неэффективные правила. А так же оптимизировать порядок их выполнения с целью уменьшить нагрузку на сервер и размер файлов отчетов.
Программа консольная. Ее необходимо переписать в папку CMS или скопировать в папку с этой утилитой подпапку "log" (всю подпапку, а не только ее содержимое). После запуска программы происходит создание файла отчета "antispamstat.log", в который собрана статистика, какое правило антиспама, сколько и когда в последний раз срабатывало.

К сожалению CMS не имеет механизма изменения порядка выполнения правил. Поэтому приходится править вручную файл настройки "server.cfg" - изменять порядок следования правил. Так же нет возможности оценить эффективность каждого правила в отдельности от других, т.к. правила, сработавшие раньше, влияют на достоверность статистики правил, находящихся в конце списка. Тем не менее, при большом количестве правил эта утилита поможет навести некоторый порядок в их многообразии.

PWL: Обсудить утилиту, посмотреть примеры правил антиспама и предложить свои правила вы можете в теме Антиспам статистика.

02.05.2014 Добавлена поддержка логов CMS версии 3.02 и 3.03.
Также добавлю, что начиная с версии CMS 3.02 появилась возможность менять порядок следования правил антиспама.



antispamstat303.zip
 Description:
CMS Antispam statistic v3.03

Download
 Filename:  antispamstat303.zip
 Filesize:  45.06 KB
 Downloaded:  1452 Time(s)



Last edited by GrAnd on 02 Nov 2007 17:08 (Fri); edited 1 time in total
Back to top
View user's profile Send private message
GrAnd
CMS Master
CMS Master


Joined: 21 Oct 2005
Posts: 766
Location: г. Коломна

PostPosted: 31 Oct 2007 18:23 (Wed)    Post subject: Reply with quote

Еще одна утилитка для анализа имен в поле "From:". Так же работает с файлами отчетов CMS.

Несмотря на то, что спамеры в последнее время информацию практически во всех полях делают переменной с целью затруднения обнаружения закономерностей, тем не менее, некоторые слова в этом поле часто повторяются. Разумеется, если в нем прописано имя отправителя, а не стоит "голый" адрес. Анализируя наиболее часто встречающиеся слова, а так же примеряя их к специфике предприятия, можно выделить некоторые, практически наверняка свидетельствующие о спаме. Так например, если предприятие занимается риэлторской деятельностью, то письма, в поле "From:" которых встречается слово "Viagra", можно отсеивать. Так же, как и письма со словом "квартира" или "Rolex" для предприятий аптечной торговли.

Утилита позволяет задать наибольшую длину слов, которые будут игнорироваться. Так если задать длину 3, то не будут включены в анализ слова "от" и "для", а так же всякие инициалы. Разделителями слов считаются не только пробелы, но и все знаки, не являющиеся буквами (русскими и латинскими) и цифрами. Если задать длину "0", то в обработку будут приниматься все письма.

Так же можно игнорировать слова, встречающиеся слишком редко. Это не повлияет на конечный результат, но несколько ускорит работу программы. Если минимальную частоту задать равной "0.0", то будут показаны все найденные слова.

Наконец, можно задавать список исключений, т.е. слов, которые не будут включены в результирующий список. Вот это как раз влияет на конечный результат, т.к. часто встречающиеся легальные слова очень затрудняют анализ результатов. Можно включать в список и те слова, которые уже включены в антиспам, чтобы не мешали находить новые, но, IMHO, делать этого не следует, т.к. спам идет волнами. Сегодня рекламируют часы, завтра - средство от кашля, послезавтра продают машины и недвижимость. Поэтому показ всех слов поможет выявить смену приоритетов рекламы и подкорректировать фильтры.

Все настройки задаются в файле формата XML. Править его надо ручками, например в блокноте. Разберетесь. На время работы длина игнорируемых слов и пороговая частота могут быть изменены в программе, но не сохраняются. Писать еще и сохранение было совсем недосуг.

Конечно, в этой утилите полно недостатков. Например, если слова "переезд" и "переезды" встречаются одинаково часто, но не очень часто, они могут не войти в результирующий список, или оказаться в его конце и не быть замеченными. В то же время суммарное вхождение корня "переезд" достаточно часто и может быть использовано в фильтре.

Второй недостаток связан с транслитерами. Так слово "VI@GRA" не будет проанализировано, т.к. символ "@" разобъет его на два коротких слова, исключаемых из обработки. Может быть имеет смысл исключить некоторые символы из числа разделителей. Пишите, если есть какие мысли.

Наконец, третий недостаток - косметический. Утилита писалась для Win2K. Поэтому под WinXP могут быть проблемы с интерфейсом. Но это решаемо.

Вобщем, не обещаю, но если будет настроение, то выпущу исправленный вариант. Но, повторю, ничего не обещаю - и так 4 дня на это потратил. А для желающих могу выслать исходники (Delphi 6.0).

Кстати, несмотря на все недостатки программы, после последнего запуска она выдала список слов, включив половину из которых в антиспам-фильтр можно избавиться от примерно 10% спама. И это только начало.

И еще ... Хотя можно для анализа выбирать несколько лог-файлов сразу, не следует этим злоупотреблять. Так если выбрать все отчеты за месяц, то будут показаны, наверное, 1-2 самых часто встречающихся слов. Но проигнорированы слова, пик которых только начался. Поэтому лучше проводить анализ последних 1-2-х дней. Но и про глобальную статистику не забывать навсегда. Таким образом можно выявлять и кратковременные всплески и слова, которые приходят понемногу, но постоянно.



spamfrom.rar
 Description:
Утилита анализа частоты вхождения слов в имя отправителя.

Download
 Filename:  spamfrom.rar
 Filesize:  202.97 KB
 Downloaded:  2943 Time(s)


_________________
Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец!
Back to top
View user's profile Send private message
GrAnd
CMS Master
CMS Master


Joined: 21 Oct 2005
Posts: 766
Location: г. Коломна

PostPosted: 21 Aug 2008 15:04 (Thu)    Post subject: Reply with quote

Прошло "всего лишь" 3,5 месяца со дня выхода CMS 2.06 и я совершенно случайно обнаружил, что программа CMS Antispam statistic v1.00 (for CMS v2.05 and above), написанная PWL, не работает с этой версией. Вернее, собирает статистику только по срабатываниям правил "белого" списка, и по по соответствию полей "To:" и "Cc:" (для внешних п/я). А срабатывания правил "черного" списка игнорирует.

В результате пришлось самому взяться за программирование и наваять следующую версию сборщика статистики. Теперь эта утилита имеет GUI-интерфейс, способна обрабатывать логи выборочно и в произвольных папках. Информация в сохраненных файлах отчетов разделена табуляторами, что позволяет удобно экспортировать их в Excel. Ну и корректно работает как с CMS 2.05, так и CMS 2.06.

Вобщем, пробуйте, господа.
Недоработок много, но исправлять их не спешу. Лучше сами напишите мне в личку, что хотели бы еще добавить или изменить.



ASS.rar
 Description:
CMS Antispam statistic v2.00 (for CMS v2.05 and above)

Download
 Filename:  ASS.rar
 Filesize:  185.27 KB
 Downloaded:  2882 Time(s)


_________________
Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец!
Back to top
View user's profile Send private message
GrAnd
CMS Master
CMS Master


Joined: 21 Oct 2005
Posts: 766
Location: г. Коломна

PostPosted: 02 Oct 2013 11:26 (Wed)    Post subject: Reply with quote

После выхода CMS 3.02 оказалось, что программа ASS тоже нуждается в переделке, т.к. изменился формат выводимых сообщений при срабатывании правила антиспама. В результате чего распознавание срабатываний не происходило.

Кроме того, прежняя версия ASS некорректно отображала некоторые регулярные выражения в правилах.



ASS.rar
 Description:
Сборщик статистики срабатывания правил антиспама для CMS v3.02+

Download
 Filename:  ASS.rar
 Filesize:  185.3 KB
 Downloaded:  1546 Time(s)


_________________
Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец!
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Courier Mail Server Forum Index -> Готовые решения All times are GMT + 4 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum
You cannot attach files in this forum
You can download files in this forum


Powered by phpBB © 2001, 2005 phpBB Group