Мне своей тушёнки хватает: идея по сокращению спама…
Пользуясь в основном офлайновым почтовым клиентом Mail.app и, наоборот, очень редко онлайновыми (точнее онлайновым — Gmail), я вообще практически ничего не знаю о той лавине спама, что мне посылают. Я даже числа с количеством рекламных писем не вижу! Но изредка мне всё-таки приходится прибегать к использованию онлайнового интерфейса Gmail…
Тогда я замечаю папку с ужасным названием Spam (+∞) и начинаю её чистить. Во время моего сегодняшнего открытия этой папки я заметил, что чуть ли не каждое нежелательное письмо написано на японском или китайском языке иероглифами, которые я вообще не знаю. Отсюда у меня появилась мысль: а почему бы не научить спам-фильтры «резать» все письма на языках, отмеченных пользователем как непонятные, ненужные и т.д.? Ведь если я понимаю лишь английский и русский (ровно как и те, с кем я общаюсь по почте), значит всё, что написано на других языках — для меня мусор… А место для мусора — корзина.
Честно говоря, я без понятия, есть ли подобная функция в офлайновых спам-фильтрах — я ими не пользуюсь, — но присутствие данной функции в спам-фильтрах онлайновых я не видел и это меня огорчает.
Вопрос ко всем: что вы думаете по этому поводу?
Вопрос к знатокам данной сферы: есть ли подобное где-нибудь или моя идея всё-таки нова? :) И если она нова, какие у неё минусы и плюсы, почему такого ещё не сделали?
Комментарии и трекбеки.
Давай, пиши уже










Нигде не видел, но зачем, если на gmail и так все нормально фильтруется.
Иногда не фильтруется, а данным способом можно уменьшить процент таких «осечек».
Одно время мне писал человек-подслушатель из Германии на немецком :) И такой спам-фильтр его письма бы отрезал. Как и письма юноши-шведа, который первое письмо мне прислал на шведском с подстрочным переводом на английский ;))
ну и в некоторых случаях не ясно, как выделить язык письма. То есть, технически, скажем, русский и болгарский похожи, похожи чешский и польский, испанский и итальянский. Вряд ли спам-роботы ставят отметки о том, на каком языке их письмо…
Артём, я не зря подчеркнул, что пользователь сам выбирает какие языки резать, а какие оставить. Ты бы мог все языки и оставить. Мне бы, наоборот, пришлось исключить всё, кроме русского и английского.
А вот что касается определения языка, то тут всё нормально. Я ещё года два назад видел программу для Windows с названием «Полиглот» или что-то в том же духе: тогда распознавал порядка 50 языков…
MS Outlook умеет фильтровать по доменам отправителя, по кодировкам и т.п., ещё с 2003-ей версии.
Я шокирован: оказывается, продукты MS тоже могут быть продуманными :-)
Фильтровать по кодировке и по диапазонам Юникода. Критерий: определенная доля письма содержит символы, которые не могут сформировать читаемый для данного получателя текст. Никакого умного определения языка не требуется, пишется быстро. Промышленных решений в таком примитивном виде, думаю, нет, потому что будет дискриминация, скажем, японцев (для примера; просто мне приходит 40% спама на японском).
А если письмо на двух языках пришло?
Например частенько активации и оповещения приходят на двух языка - русском и английском (на случай если русский не читается). Я помню как ко мне приходили активации на французском и немецком (кажется на старом Blogger из-за сбросившегося языка, автоопределния языка по ip и европейских прокси).
Я вот, кстати, если вижу письмо на английском - значит это спам. Нет у меня знакомых англичан. И если бы можно было поставить фильтр “письма на английском - в “спам”", это бы облегчило мою жизнь :)
А иногда ещё и фильтруется в не ту сторону.
В защиту Gmail, конечно, стоит сказать, что у конкурентов ещё хуже но всё же бывало, что доводилось вытаскивать нормальную почту из трэша.
У того же самого Gmail вполне себе есть проверка орфографии. Если допустим 80 процентов текста это ошибки то данное письмо с большой степенью вероятности написано на другом языке.
Это придумал я (отнюдь не лингвист и не программист) за полминуты. Думаю с ресурсами гугла на решение этого вопроса уйдёт день другой.
А при таком подходе “друзья англичане” и не появятся. Да и банально зарегистрироваться на буржуйском серваке не сможешь.
Перестал светить свое мыло где попало и спам куда-то исчез.
По доменам, что угодно умеет фильтровать. Проблема гугла в том что он заголовки только основные предлагает как базу для фильтрации. Ну а поле From не умеет подделывать только совсем умственнослабый индивид.