View previous topic :: View next topic |
Author |
Message |
GrAnd CMS Master
Joined: 21 Oct 2005 Posts: 766 Location: г. Коломна
|
Posted: 31 Oct 2007 17:07 (Wed) Post subject: v2,3| Программы анализа работы CMS |
|
|
Когда я только устанавливал у себя первые версии CMS, почтовый трафик был таким мизерным, что с помощью просмотрщиков логов можно было отслеживать его работу практически в реальном времени.
С тех пор воды утекло много, а спама пришло еще больше, поэтому в многомегабайтных файлов отчетов (это на каждый день!) разобраться вручную практически невозможно. Особенно это касается статистики возникновения каких-либо ситуаций. Пока проанализируешь логи хотя-бы за 1-2 недели, нужда в таком анализе отпадет, т.к. ситуация изменится. Вот и возникает необходимость автоматизировать рутинную работу обработки логов.
Как ни странно, но иногда удается действительно из логов найти что-то интересное и полезное.
Вот и решил я для таких утилит создать отдельный топик. Авось пригодится.
_________________ Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец! |
|
Back to top |
|
|
GrAnd CMS Master
Joined: 21 Oct 2005 Posts: 766 Location: г. Коломна
|
Posted: 31 Oct 2007 17:25 (Wed) Post subject: |
|
|
CMS Antispam statistic - эта утилита написана PWL. Ее назначение - определение частоты срабатывания различных правил антиспама. Позволяет обнаружить "мертвые" и неэффективные правила. А так же оптимизировать порядок их выполнения с целью уменьшить нагрузку на сервер и размер файлов отчетов.
Программа консольная. Ее необходимо переписать в папку CMS или скопировать в папку с этой утилитой подпапку "log" (всю подпапку, а не только ее содержимое). После запуска программы происходит создание файла отчета "antispamstat.log", в который собрана статистика, какое правило антиспама, сколько и когда в последний раз срабатывало.
К сожалению CMS не имеет механизма изменения порядка выполнения правил. Поэтому приходится править вручную файл настройки "server.cfg" - изменять порядок следования правил. Так же нет возможности оценить эффективность каждого правила в отдельности от других, т.к. правила, сработавшие раньше, влияют на достоверность статистики правил, находящихся в конце списка. Тем не менее, при большом количестве правил эта утилита поможет навести некоторый порядок в их многообразии.
PWL: Обсудить утилиту, посмотреть примеры правил антиспама и предложить свои правила вы можете в теме Антиспам статистика.
02.05.2014 Добавлена поддержка логов CMS версии 3.02 и 3.03.
Также добавлю, что начиная с версии CMS 3.02 появилась возможность менять порядок следования правил антиспама.
Description: |
CMS Antispam statistic v3.03 |
|
Download |
Filename: |
antispamstat303.zip |
Filesize: |
45.06 KB |
Downloaded: |
1453 Time(s) |
Last edited by GrAnd on 02 Nov 2007 17:08 (Fri); edited 1 time in total |
|
Back to top |
|
|
GrAnd CMS Master
Joined: 21 Oct 2005 Posts: 766 Location: г. Коломна
|
Posted: 31 Oct 2007 18:23 (Wed) Post subject: |
|
|
Еще одна утилитка для анализа имен в поле "From:". Так же работает с файлами отчетов CMS.
Несмотря на то, что спамеры в последнее время информацию практически во всех полях делают переменной с целью затруднения обнаружения закономерностей, тем не менее, некоторые слова в этом поле часто повторяются. Разумеется, если в нем прописано имя отправителя, а не стоит "голый" адрес. Анализируя наиболее часто встречающиеся слова, а так же примеряя их к специфике предприятия, можно выделить некоторые, практически наверняка свидетельствующие о спаме. Так например, если предприятие занимается риэлторской деятельностью, то письма, в поле "From:" которых встречается слово "Viagra", можно отсеивать. Так же, как и письма со словом "квартира" или "Rolex" для предприятий аптечной торговли.
Утилита позволяет задать наибольшую длину слов, которые будут игнорироваться. Так если задать длину 3, то не будут включены в анализ слова "от" и "для", а так же всякие инициалы. Разделителями слов считаются не только пробелы, но и все знаки, не являющиеся буквами (русскими и латинскими) и цифрами. Если задать длину "0", то в обработку будут приниматься все письма.
Так же можно игнорировать слова, встречающиеся слишком редко. Это не повлияет на конечный результат, но несколько ускорит работу программы. Если минимальную частоту задать равной "0.0", то будут показаны все найденные слова.
Наконец, можно задавать список исключений, т.е. слов, которые не будут включены в результирующий список. Вот это как раз влияет на конечный результат, т.к. часто встречающиеся легальные слова очень затрудняют анализ результатов. Можно включать в список и те слова, которые уже включены в антиспам, чтобы не мешали находить новые, но, IMHO, делать этого не следует, т.к. спам идет волнами. Сегодня рекламируют часы, завтра - средство от кашля, послезавтра продают машины и недвижимость. Поэтому показ всех слов поможет выявить смену приоритетов рекламы и подкорректировать фильтры.
Все настройки задаются в файле формата XML. Править его надо ручками, например в блокноте. Разберетесь. На время работы длина игнорируемых слов и пороговая частота могут быть изменены в программе, но не сохраняются. Писать еще и сохранение было совсем недосуг.
Конечно, в этой утилите полно недостатков. Например, если слова "переезд" и "переезды" встречаются одинаково часто, но не очень часто, они могут не войти в результирующий список, или оказаться в его конце и не быть замеченными. В то же время суммарное вхождение корня "переезд" достаточно часто и может быть использовано в фильтре.
Второй недостаток связан с транслитерами. Так слово "VI@GRA" не будет проанализировано, т.к. символ "@" разобъет его на два коротких слова, исключаемых из обработки. Может быть имеет смысл исключить некоторые символы из числа разделителей. Пишите, если есть какие мысли.
Наконец, третий недостаток - косметический. Утилита писалась для Win2K. Поэтому под WinXP могут быть проблемы с интерфейсом. Но это решаемо.
Вобщем, не обещаю, но если будет настроение, то выпущу исправленный вариант. Но, повторю, ничего не обещаю - и так 4 дня на это потратил. А для желающих могу выслать исходники (Delphi 6.0).
Кстати, несмотря на все недостатки программы, после последнего запуска она выдала список слов, включив половину из которых в антиспам-фильтр можно избавиться от примерно 10% спама. И это только начало.
И еще ... Хотя можно для анализа выбирать несколько лог-файлов сразу, не следует этим злоупотреблять. Так если выбрать все отчеты за месяц, то будут показаны, наверное, 1-2 самых часто встречающихся слов. Но проигнорированы слова, пик которых только начался. Поэтому лучше проводить анализ последних 1-2-х дней. Но и про глобальную статистику не забывать навсегда. Таким образом можно выявлять и кратковременные всплески и слова, которые приходят понемногу, но постоянно.
Description: |
Утилита анализа частоты вхождения слов в имя отправителя. |
|
Download |
Filename: |
spamfrom.rar |
Filesize: |
202.97 KB |
Downloaded: |
2943 Time(s) |
_________________ Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец! |
|
Back to top |
|
|
GrAnd CMS Master
Joined: 21 Oct 2005 Posts: 766 Location: г. Коломна
|
Posted: 21 Aug 2008 15:04 (Thu) Post subject: |
|
|
Прошло "всего лишь" 3,5 месяца со дня выхода CMS 2.06 и я совершенно случайно обнаружил, что программа CMS Antispam statistic v1.00 (for CMS v2.05 and above), написанная PWL, не работает с этой версией. Вернее, собирает статистику только по срабатываниям правил "белого" списка, и по по соответствию полей "To:" и "Cc:" (для внешних п/я). А срабатывания правил "черного" списка игнорирует.
В результате пришлось самому взяться за программирование и наваять следующую версию сборщика статистики. Теперь эта утилита имеет GUI-интерфейс, способна обрабатывать логи выборочно и в произвольных папках. Информация в сохраненных файлах отчетов разделена табуляторами, что позволяет удобно экспортировать их в Excel. Ну и корректно работает как с CMS 2.05, так и CMS 2.06.
Вобщем, пробуйте, господа.
Недоработок много, но исправлять их не спешу. Лучше сами напишите мне в личку, что хотели бы еще добавить или изменить.
Description: |
CMS Antispam statistic v2.00 (for CMS v2.05 and above) |
|
Download |
Filename: |
ASS.rar |
Filesize: |
185.27 KB |
Downloaded: |
2883 Time(s) |
_________________ Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец! |
|
Back to top |
|
|
GrAnd CMS Master
Joined: 21 Oct 2005 Posts: 766 Location: г. Коломна
|
Posted: 02 Oct 2013 11:26 (Wed) Post subject: |
|
|
После выхода CMS 3.02 оказалось, что программа ASS тоже нуждается в переделке, т.к. изменился формат выводимых сообщений при срабатывании правила антиспама. В результате чего распознавание срабатываний не происходило.
Кроме того, прежняя версия ASS некорректно отображала некоторые регулярные выражения в правилах.
Description: |
Сборщик статистики срабатывания правил антиспама для CMS v3.02+ |
|
Download |
Filename: |
ASS.rar |
Filesize: |
185.3 KB |
Downloaded: |
1547 Time(s) |
_________________ Все, что началось хорошо, закончится плохо.
Все, что началось плохо, закончится еще хуже.
Если вам кажется, что все идет хорошо, значит вы чего-то не замечаете.
Если все закончилось хорошо, то, значит, это еще не конец! |
|
Back to top |
|
|
|
|
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum You cannot attach files in this forum You can download files in this forum
|
Powered by phpBB © 2001, 2005 phpBB Group
|