diff --git a/recipes/il_giornale.recipe b/recipes/il_giornale.recipe index 007432ed88..6d3eaa5fef 100644 --- a/recipes/il_giornale.recipe +++ b/recipes/il_giornale.recipe @@ -7,7 +7,6 @@ description = 'Italian daily newspaper - 09-11-2011' ''' http://www.ilgiornale.it/ ''' -from calibre.ebooks.BeautifulSoup import BeautifulSoup from calibre.web.feeds.news import BasicNewsRecipe class IlGiornale(BasicNewsRecipe): @@ -25,35 +24,39 @@ class IlGiornale(BasicNewsRecipe): oldest_article = 7 max_articles_per_feed = 100 use_embedded_content = False + #auto_cleanup = True + #auto_cleanup_keep = '//div[@id="insertbox_text"]' no_stylesheets = True conversion_options = {'linearize_tables':True} remove_javascript = True + keep_only_tags = [dict(name='h1', attrs={'class':'entry-title'}), dict(name='div', attrs={'id':'insertbox_text'})] - def get_article_url(self, article): - return article.get('guid', article.get('id', None)) - def print_version(self, url): - raw = self.browser.open(url).read() - soup = BeautifulSoup(raw.decode('utf8', 'replace')) - all_print_tags = soup.find('div', {'id':'print_article'}) - print_link = all_print_tags.a - if print_link is None: - return url - return 'http://www.ilgiornale.it' + print_link['href'] + #def get_article_url(self, article): + #return article.get('guid', article.get('id', None)) + + #def print_version(self, url): + #raw = self.browser.open(url).read() + #soup = BeautifulSoup(raw.decode('utf8', 'replace')) + #all_print_tags = soup.find('div', {'id':'print_article'}) + #print_link = all_print_tags.a + #if print_link is None: + #return url + #return 'http://www.ilgiornale.it' + print_link['href'] feeds = [ - (u'Ultime Notizie',u'http://www.ilgiornale.it/?RSS=S'), - (u'All\'Interno', u'http://www.ilgiornale.it/la_s.pic1?SID=8&RSS=S'), - (u'Esteri', u'http://www.ilgiornale.it/la_s.pic1?SID=6&RSS=S'), - (u'Economia', u'http://www.ilgiornale.it/la_s.pic1?SID=5&RSS=S'), - (u'Cultura', u'http://www.ilgiornale.it/la_s.pic1?SID=4&RSS=S'), - (u'Spettacoli', u'http://www.ilgiornale.it/la_s.pic1?SID=14&RSS=S'), - (u'Sport', u'http://www.ilgiornale.it/la_s.pic1?SID=15&RSS=S'), - (u'Tech&Web', u'http://www.ilgiornale.it/la_s.pic1?SID=35&RSS=S'), - (u'Edizione di Roma', u'http://www.ilgiornale.it/roma.pic1?SID=13&RSS=S'), - (u'Edizione di Milano', u'http://www.ilgiornale.it/milano.pic1?SID=9&RSS=S'), - (u'Edizione di Genova', u'http://www.ilgiornale.it/genova.pic1?SID=7&RSS=S') + (u'Ultime Notizie',u'http://www.ilgiornale.it/rss.xml'), + #(u'All\'Interno', u'http://www.ilgiornale.it/la_s.pic1?SID=8&RSS=S'), + #(u'Esteri', u'http://www.ilgiornale.it/la_s.pic1?SID=6&RSS=S'), + #(u'Economia', u'http://www.ilgiornale.it/la_s.pic1?SID=5&RSS=S'), + #(u'Cultura', u'http://www.ilgiornale.it/la_s.pic1?SID=4&RSS=S'), + #(u'Spettacoli', u'http://www.ilgiornale.it/la_s.pic1?SID=14&RSS=S'), + #(u'Sport', u'http://www.ilgiornale.it/la_s.pic1?SID=15&RSS=S'), + #(u'Tech&Web', u'http://www.ilgiornale.it/la_s.pic1?SID=35&RSS=S'), + #(u'Edizione di Roma', u'http://www.ilgiornale.it/roma.pic1?SID=13&RSS=S'), + #(u'Edizione di Milano', u'http://www.ilgiornale.it/milano.pic1?SID=9&RSS=S'), + #(u'Edizione di Genova', u'http://www.ilgiornale.it/genova.pic1?SID=7&RSS=S') ]