mirror of
https://github.com/kovidgoyal/calibre.git
synced 2025-09-29 15:31:08 -04:00
79 lines
3.9 KiB
Python
79 lines
3.9 KiB
Python
#!/usr/bin/env python
|
|
__license__ = 'GPL v3'
|
|
__author__ = 'Lorenzo Vigentini, based on Darko Miletic, Gabriele Marini'
|
|
__copyright__ = '2009, Darko Miletic <darko.miletic at gmail.com>, Lorenzo Vigentini <l.vigentini at gmail.com>'
|
|
description = 'Italian daily newspaper - v1.01 (04, January 2010); 16.05.2010 new version'
|
|
|
|
'''
|
|
http://www.repubblica.it/
|
|
'''
|
|
|
|
from calibre.web.feeds.news import BasicNewsRecipe
|
|
|
|
class LaRepubblica(BasicNewsRecipe):
|
|
__author__ = 'Lorenzo Vigentini, Gabriele Marini'
|
|
description = 'Italian daily newspaper'
|
|
|
|
cover_url = 'http://www.repubblica.it/images/homepage/la_repubblica_logo.gif'
|
|
title = u'La Repubblica'
|
|
publisher = 'Gruppo editoriale L\'Espresso'
|
|
category = 'News, politics, culture, economy, general interest'
|
|
|
|
language = 'it'
|
|
timefmt = '[%a, %d %b, %Y]'
|
|
|
|
oldest_article = 5
|
|
max_articles_per_feed = 100
|
|
use_embedded_content = False
|
|
recursion = 10
|
|
|
|
remove_javascript = True
|
|
no_stylesheets = True
|
|
|
|
def get_article_url(self, article):
|
|
link = article.get('id', article.get('guid', None))
|
|
if link is None:
|
|
return article
|
|
return link
|
|
|
|
keep_only_tags = [dict(name='div', attrs={'class':'articolo'}),
|
|
dict(name='div', attrs={'class':'body-text'}),
|
|
# dict(name='div', attrs={'class':'page-content'}),
|
|
dict(name='p', attrs={'class':'disclaimer clearfix'}),
|
|
dict(name='div', attrs={'id':'contA'})
|
|
]
|
|
|
|
|
|
remove_tags = [
|
|
dict(name=['object','link']),
|
|
dict(name='span',attrs={'class':'linkindice'}),
|
|
dict(name='div', attrs={'class':'bottom-mobile'}),
|
|
dict(name='div', attrs={'id':['rssdiv','blocco']}),
|
|
dict(name='div', attrs={'class':'utility'}),
|
|
dict(name='div', attrs={'class':'generalbox'}),
|
|
dict(name='ul', attrs={'id':'hystory'})
|
|
]
|
|
|
|
feeds = [
|
|
(u'Rilievo', u'http://www.repubblica.it/rss/homepage/rss2.0.xml'),
|
|
(u'Cronaca', u'http://www.repubblica.it/rss/cronaca/rss2.0.xml'),
|
|
(u'Esteri', u'http://www.repubblica.it/rss/esteri/rss2.0.xml'),
|
|
(u'Economia', u'http://www.repubblica.it/rss/economia/rss2.0.xml'),
|
|
(u'Politica', u'http://www.repubblica.it/rss/politica/rss2.0.xml'),
|
|
(u'Scienze', u'http://www.repubblica.it/rss/scienze/rss2.0.xml'),
|
|
(u'Tecnologia', u'http://www.repubblica.it/rss/tecnologia/rss2.0.xml'),
|
|
(u'Scuola e Universita', u'http://www.repubblica.it/rss/scuola_e_universita/rss2.0.xml'),
|
|
(u'Ambiente', u'http://www.repubblica.it/rss/ambiente/rss2.0.xml'),
|
|
(u'Cultura', u'http://www.repubblica.it/rss/spettacoli_e_cultura/rss2.0.xml'),
|
|
(u'Persone', u'http://www.repubblica.it/rss/persone/rss2.0.xml'),
|
|
(u'Sport', u'http://www.repubblica.it/rss/sport/rss2.0.xml'),
|
|
(u'Calcio', u'http://www.repubblica.it/rss/sport/calcio/rss2.0.xml'),
|
|
(u'Motori', u'http://www.repubblica.it/rss/motori/rss2.0.xml'),
|
|
(u'Edizione Roma', u'http://roma.repubblica.it/rss/rss2.0.xml'),
|
|
(u'Edizione Torino', u'http://torino.repubblica.it/rss/rss2.0.xml'),
|
|
(u'Edizione Milano', u'feed://milano.repubblica.it/rss/rss2.0.xml'),
|
|
(u'Edizione Napoli', u'feed://napoli.repubblica.it/rss/rss2.0.xml'),
|
|
(u'Edizione Palermo', u'feed://palermo.repubblica.it/rss/rss2.0.xml')
|
|
]
|
|
|