#!/usr/bin/env python __license__ = 'GPL v3' __author__ = 'Lorenzo Vigentini, based on Darko Miletic, Gabriele Marini' __copyright__ = '2009, Darko Miletic , Lorenzo Vigentini ' description = 'Italian daily newspaper - v1.01 (04, January 2010); 16.05.2010 new version' ''' http://www.repubblica.it/ ''' from calibre.web.feeds.news import BasicNewsRecipe class LaRepubblica(BasicNewsRecipe): __author__ = 'Lorenzo Vigentini, Gabriele Marini' description = 'Italian daily newspaper' cover_url = 'http://www.repubblica.it/images/homepage/la_repubblica_logo.gif' title = u'La Repubblica' publisher = 'Gruppo editoriale L\'Espresso' category = 'News, politics, culture, economy, general interest' language = 'it' timefmt = '[%a, %d %b, %Y]' oldest_article = 5 max_articles_per_feed = 100 use_embedded_content = False recursion = 10 remove_javascript = True no_stylesheets = True def get_article_url(self, article): link = article.get('id', article.get('guid', None)) if link is None: return article return link keep_only_tags = [dict(name='div', attrs={'class':'articolo'}), dict(name='div', attrs={'class':'body-text'}), # dict(name='div', attrs={'class':'page-content'}), dict(name='p', attrs={'class':'disclaimer clearfix'}), dict(name='div', attrs={'id':'contA'}) ] remove_tags = [ dict(name=['object','link']), dict(name='span',attrs={'class':'linkindice'}), dict(name='div', attrs={'class':'bottom-mobile'}), dict(name='div', attrs={'id':['rssdiv','blocco']}), dict(name='div', attrs={'class':'utility'}), dict(name='div', attrs={'class':'generalbox'}), dict(name='ul', attrs={'id':'hystory'}) ] feeds = [ (u'Rilievo', u'http://www.repubblica.it/rss/homepage/rss2.0.xml'), (u'Cronaca', u'http://www.repubblica.it/rss/cronaca/rss2.0.xml'), (u'Esteri', u'http://www.repubblica.it/rss/esteri/rss2.0.xml'), (u'Economia', u'http://www.repubblica.it/rss/economia/rss2.0.xml'), (u'Politica', u'http://www.repubblica.it/rss/politica/rss2.0.xml'), (u'Scienze', u'http://www.repubblica.it/rss/scienze/rss2.0.xml'), (u'Tecnologia', u'http://www.repubblica.it/rss/tecnologia/rss2.0.xml'), (u'Scuola e Universita', u'http://www.repubblica.it/rss/scuola_e_universita/rss2.0.xml'), (u'Ambiente', u'http://www.repubblica.it/rss/ambiente/rss2.0.xml'), (u'Cultura', u'http://www.repubblica.it/rss/spettacoli_e_cultura/rss2.0.xml'), (u'Persone', u'http://www.repubblica.it/rss/persone/rss2.0.xml'), (u'Sport', u'http://www.repubblica.it/rss/sport/rss2.0.xml'), (u'Calcio', u'http://www.repubblica.it/rss/sport/calcio/rss2.0.xml'), (u'Motori', u'http://www.repubblica.it/rss/motori/rss2.0.xml'), (u'Edizione Roma', u'http://roma.repubblica.it/rss/rss2.0.xml'), (u'Edizione Torino', u'http://torino.repubblica.it/rss/rss2.0.xml'), (u'Edizione Milano', u'feed://milano.repubblica.it/rss/rss2.0.xml'), (u'Edizione Napoli', u'feed://napoli.repubblica.it/rss/rss2.0.xml'), (u'Edizione Palermo', u'feed://palermo.repubblica.it/rss/rss2.0.xml') ]