Цензура. Как сделать?
Цензура. Как сделать?
У меня в наличии база данных из 43к анекдотов. Нужно определить какие из них матерные.
Есть идеи как это сделать?
Есть идеи как это сделать?
Re: Цензура. Как сделать?
создай таблицы, anecdotes и fuck_anecdotesAliMan писал(а):У меня в наличии база данных из 43к анекдотов. Нужно определить какие из них матерные.
Есть идеи как это сделать?
«Life is too short to spend rewriting code»
Re: Цензура. Как сделать?
Любителям поязвить прошу продвигаться в сторону лесных массивов окольными путями дабы не смущать светлые умы android-разработчиков и не разлагать рабочее настроение.mdzht писал(а):создай таблицы, anecdotes и fuck_anecdotes
П.С. Если я захочу услышать язвительные замечание, нелепые советы или поговорить на отвлеченные темы - то напишу в разделе "флудильня".
-
- Сообщения: 93
- Зарегистрирован: 05 мар 2014, 06:20
Re: Цензура. Как сделать?
На "анекдотов.нет" эту задачу не решили.
Первое что приходит в голову это сделать таблицу, занести в нее всевозможные матерные слова, и уже относительно нее делать фильтр.
Но навряд ли это получится, так как Русский язык велик и могуч! Эта таблица по объему может оказатся больше чем база с анекдотами.
Первое что приходит в голову это сделать таблицу, занести в нее всевозможные матерные слова, и уже относительно нее делать фильтр.
Но навряд ли это получится, так как Русский язык велик и могуч! Эта таблица по объему может оказатся больше чем база с анекдотами.
Linux Fedora RFRemix + Intellij Idea
Re: Цензура. Как сделать?
Ну раз не хочешь трогать базуAliMan писал(а): П.С. Если я захочу услышать язвительные замечание, нелепые советы или поговорить на отвлеченные темы - то напишу в разделе "флудильня".
[syntax=java5]if jokes.equals(offensive_jokes){
print("Fuck fuck fuck");
}else{
print("don't disturb the enlightened minds of android developers");
}[/syntax]
«Life is too short to spend rewriting code»
Re: Цензура. Как сделать?
Люди извращены в своей не грамотности. Много людей даже в матах умудряются допускать ошибки.
Я не претендую на роль грамотного.
Я не претендую на роль грамотного.
Re: Цензура. Как сделать?
Не скомпелируется - скобочку после "if" забыл(а)mdzht писал(а):Ну раз не хочешь трогать базуAliMan писал(а): П.С. Если я захочу услышать язвительные замечание, нелепые советы или поговорить на отвлеченные темы - то напишу в разделе "флудильня".
[syntax=java5]if jokes.equals(offensive_jokes){
print("Fuck fuck fuck");
}else{
print("don't disturb the enlightened minds of android developers");
}[/syntax]
Код: Выделить всё
if(!isOfftop(msgObj) || !isTrolling(msgObj)){
this.send(toWork);
}else{
User user = msgObj.getUser();
user.send(toWood);
user.ignor();
}
Re: Цензура. Как сделать?
Первое, что приходит в голову и единственный способ решения данной проблемы: Machine learning. И называется это: Supervised learningsiberprogs писал(а): Первое что приходит в голову это....
http://www.rtexttools.com/
Последний раз редактировалось altwin 21 мар 2014, 18:44, всего редактировалось 2 раза.
Re: Цензура. Как сделать?
Вот вот сам себе и ответил, только чуть чуть поправлю, если не будешь нытьAliMan писал(а):Не скомпелируется - скобочку после "if" забыл(а)Код: Выделить всё
if(!isOfftop(msgObj) || !isTrolling(msgObj)){ this.send(toWork); }else{ User user = msgObj.getUser(); user.send(toWood); user.ignor(); }
[syntax=java5]if(!isOfftop(msgObj) && !isTrolling(msgObj)){
this.send(ToSuck);
}else{
User user = msgObj.getUser();
user.send(toWood);
user.ignor();
aliwoman.whine();
}[/syntax]
«Life is too short to spend rewriting code»
Re: Цензура. Как сделать?
Думаю изначально база создавалась не правильно... К каждому анекдоту нужны теги, и по ним делать выборки.
Подготовить базу: поискать матерные слова, в нужных местах поставить звездочку. А уже на устройстве эту звездочку учитывать. как-то так наверное.
Подготовить базу: поискать матерные слова, в нужных местах поставить звездочку. А уже на устройстве эту звездочку учитывать. как-то так наверное.
Re: Цензура. Как сделать?
Тегов нет и взять их не от кудаklblk писал(а):К каждому анекдоту нужны теги, и по ним делать выборки.
Как их поискать? в этом и загвоздка... была.klblk писал(а):Подготовить базу: поискать матерные слова, в нужных местах поставить звездочку. А уже на устройстве эту звездочку учитывать. как-то так наверное.
Проблему решил с помощью регулярок.
Помогла статья http://habrahabr.ru/post/101232/
И еще http://matov.net.ru/
Но переделать все на java вот это вот https://github.com/alrusdi/php-censure/ ... ensure.php лень было.
В целом вышло все нормально. На тестовой выборке в 1000 матерных анекдотов не распознал только 6.
На тестовой выборке в 1000 нормальных анекдотов распознал матерными только 12.