remove some garbage tags

This commit is contained in:
Tomasz Długosz 2015-10-17 22:16:37 +02:00
parent f9f74ade94
commit fd2adb03ef

View File

@ -4,7 +4,7 @@ import re
class Ciekawostki_Historyczne(BasicNewsRecipe):
title = u'Ciekawostki Historyczne'
oldest_article = 7
__author__ = 'fenuks'
__author__ = u'fenuks & Tomasz Długosz'
description = u'Serwis popularnonaukowy - odkrycia, kontrowersje, historia, ciekawostki, badania, ciekawostki z przeszłości.'
category = 'history'
language = 'pl'
@ -18,7 +18,7 @@ class Ciekawostki_Historyczne(BasicNewsRecipe):
remove_empty_feeds = True
keep_only_tags = [dict(name='div', attrs={'class':'post'})]
recursions = 5
remove_tags = [dict(id='singlepostinfo')]
remove_tags = [dict(id='singlepostinfo'), dict(attrs={'class':['books short floatRight','unprintable','booksTable','bawmrp']})]
feeds = [(u'Staro\u017cytno\u015b\u0107', u'http://ciekawostkihistoryczne.pl/tag/starozytnosc/feed/'), (u'\u015aredniowiecze', u'http://ciekawostkihistoryczne.pl/tag/sredniowiecze/feed/'), (u'Nowo\u017cytno\u015b\u0107', u'http://ciekawostkihistoryczne.pl/tag/nowozytnosc/feed/'), (u'XIX wiek', u'http://ciekawostkihistoryczne.pl/tag/xix-wiek/feed/'), (u'1914-1939', u'http://ciekawostkihistoryczne.pl/tag/1914-1939/feed/'), (u'1939-1945', u'http://ciekawostkihistoryczne.pl/tag/1939-1945/feed/'), (u'Powojnie (od 1945)', u'http://ciekawostkihistoryczne.pl/tag/powojnie/feed/'), (u'Recenzje', u'http://ciekawostkihistoryczne.pl/category/recenzje/feed/')]
@ -35,4 +35,3 @@ class Ciekawostki_Historyczne(BasicNewsRecipe):
soup.find('h6').nextSibling.extract()
return soup