#!/usr/bin/env python2 __license__ = 'GPL v3' __author__ = 'Gambarini, based on Darko Miletic' __copyright__ = '2009-2010, Darko Miletic ' description = 'Italian daily newspaper - 09-11-2011' ''' http://www.ilgiornale.it/ ''' from calibre.web.feeds.news import BasicNewsRecipe class IlGiornale(BasicNewsRecipe): __author__ = 'GAMBARINI' description = 'Italian daily newspaper' cover_url = 'http://www.ilgiornale.it/img_v1/logo.gif' title = u'Il Giornale' publisher = 'Il Giornale ON-LINE S.r.l.' category = 'News, politics, culture, economy, general interest' language = 'it' timefmt = '[%a, %d %b, %Y]' oldest_article = 7 max_articles_per_feed = 100 use_embedded_content = False #auto_cleanup = True #auto_cleanup_keep = '//div[@id="insertbox_text"]' no_stylesheets = True conversion_options = {'linearize_tables':True} remove_javascript = True keep_only_tags = [dict(name='h1', attrs={'class':'entry-title'}), dict(name='div', attrs={'id':'insertbox_text'})] #def get_article_url(self, article): #return article.get('guid', article.get('id', None)) #def print_version(self, url): #raw = self.browser.open(url).read() #soup = BeautifulSoup(raw.decode('utf8', 'replace')) #all_print_tags = soup.find('div', {'id':'print_article'}) #print_link = all_print_tags.a #if print_link is None: #return url #return 'http://www.ilgiornale.it' + print_link['href'] feeds = [ (u'Ultime Notizie',u'http://www.ilgiornale.it/rss.xml'), #(u'All\'Interno', u'http://www.ilgiornale.it/la_s.pic1?SID=8&RSS=S'), #(u'Esteri', u'http://www.ilgiornale.it/la_s.pic1?SID=6&RSS=S'), #(u'Economia', u'http://www.ilgiornale.it/la_s.pic1?SID=5&RSS=S'), #(u'Cultura', u'http://www.ilgiornale.it/la_s.pic1?SID=4&RSS=S'), #(u'Spettacoli', u'http://www.ilgiornale.it/la_s.pic1?SID=14&RSS=S'), #(u'Sport', u'http://www.ilgiornale.it/la_s.pic1?SID=15&RSS=S'), #(u'Tech&Web', u'http://www.ilgiornale.it/la_s.pic1?SID=35&RSS=S'), #(u'Edizione di Roma', u'http://www.ilgiornale.it/roma.pic1?SID=13&RSS=S'), #(u'Edizione di Milano', u'http://www.ilgiornale.it/milano.pic1?SID=9&RSS=S'), #(u'Edizione di Genova', u'http://www.ilgiornale.it/genova.pic1?SID=7&RSS=S') ]