From 22be8fd68c884e80c679c23acc73b7ebd5f3c0d2 Mon Sep 17 00:00:00 2001 From: Kovid Goyal Date: Fri, 25 Sep 2015 22:47:40 +0530 Subject: [PATCH] Update La Nacion Fixes #1499772 [Updated recipe for La Nacion](https://bugs.launchpad.net/calibre/+bug/1499772) --- recipes/icons/lanacion.png | Bin 110 -> 802 bytes recipes/lanacion.recipe | 94 ++++++++++++++----------------------- 2 files changed, 34 insertions(+), 60 deletions(-) diff --git a/recipes/icons/lanacion.png b/recipes/icons/lanacion.png index c268019eacac1394ed1c1c50ecc444410e705008..9e0d2298d004e6f37b8becb0e2546a224c2f7cf2 100644 GIT binary patch delta 789 zcmV+w1M2*4q6Ux|e+B>m03Y-JVE_OC24YJ`L;(K){{a7>y{D4^000SaNLh0L01FcU z01FcV0GgZ_00007bV*G`2j2-94G<2hAJRJj00OT`L_t(I%Vm>EY)xSphM)7FsrTM< zuWH?@mQzs@(THe7Vu~R_NNfZv5~4N|5kp97OA{e!tSltDf5w6p5rPekh}f7TXiZfe zZhEIP{r_*Fbt}HjxB1@pTfFaMFg52MLU9bLrFkUbc9dEVx&=^Rd_;(QSnhpN-YD4y zII|G|1Az07p)~GLnb<{GJ%NmuqP30I{Jk~oNA`hiNe=E?`#xOvbU_0M&)5l18*Qv{3Q5=OZ*i9666NMg9{t*Lc4QiT;X@XQO zD18AX2Z)2G7L}q;6dfmuJ)#H_3Bss}6A4m*5MY~NSs;~SFJfwys;koin?re{aY@5Nsj}It7W`h?LIAz%YxN zax9)*&+S)(Pzv}q_=^>Oo^2gIFMIa!d9+AVHbr4*3=-Lhl&b_<%|~e{2Yekb128sR zfGCFXGJXATdH1tG$DEm5>)Oow;R2KcP)eY5oA?{020ay9BB3o$YGE^D<$%Q}t^%;E zwUHHme;!mV8-XD{Aq>d4wA5z+m^*(qeTTPmXzda@{U(Sd>7!QwXwId<5?~62Fa}Ik z?wEzrTN+v$&D9H<31Z2dT$=X$3|{{jr>!B&i_r;&UVP$tvC8Y81)jY74vsy7ZC^Av z(&rOJHwmLo!U*D|)&awqY~keAfNg>6faBc2f428qq_cyVK`+9*jA?o#F(_55Fw;zg z0Mi1;`GQl|i{n--vW;MuuVa>c%t|-0$ROq9J3Y-nOjUUZH+7miub))rADCP!6MG1& z$B}UdO4q+a__|0NMv67#|Sg9=3azI&Wk;&c6Zs{3;}E T53}!E00000NkvXXu0mjfH}6^U delta 91 zcmZ3)mN!8%l!<|XVZy`=GazN^>EaktaVt3?qHwl~i#hM-_qBic*;H;AbeJmaVNptC u*w4lyKGXJ&i9(Xp35REkJTIz#WMtTHb;YJyK4uco00vK2KbLh*2~7Z1A|A8= diff --git a/recipes/lanacion.recipe b/recipes/lanacion.recipe index fe418f117d..b57cfd1340 100644 --- a/recipes/lanacion.recipe +++ b/recipes/lanacion.recipe @@ -1,4 +1,4 @@ -__copyright__ = '2008-2013, Darko Miletic ' +__copyright__ = '2008-2015, Darko Miletic ' ''' lanacion.com.ar ''' @@ -14,7 +14,9 @@ class Lanacion(BasicNewsRecipe): oldest_article = 1 max_articles_per_feed = 100 use_embedded_content = False + auto_cleanup = False no_stylesheets = True + encoding = 'utf8' language = 'es_AR' publication_type = 'newspaper' remove_empty_feeds = True @@ -27,7 +29,6 @@ class Lanacion(BasicNewsRecipe): .epigrafe-columna{font-size: x-small} """ - conversion_options = { 'comment' : description , 'tags' : category @@ -36,71 +37,44 @@ class Lanacion(BasicNewsRecipe): } remove_tags = [ - dict(name=['iframe','embed','object','meta','link']) - ,dict(attrs={'id':['herramientas','relacionadas','ampliar']}) + dict(name=['iframe','embed','object','meta','link','button']) + ,dict(attrs={'id':['herramientas-sociales','comunidad', 'ranking-nota','footer']}) + ,dict(attrs={'class':['mas-sobre-tema','cinturon-notas floatFix','cinturon-notas']}) ] - - remove_tags_before = dict(attrs={'id':'encabezado'}) - remove_tags_after = dict(attrs={'id':'relacionadas'}) + + remove_tags_before = dict(attrs={'id':'nota'}) + remove_tags_after = dict(attrs={'class':'en-esta-nota'}) feeds = [ - (u'Politica' , u'http://lanacion.com.ar.feedsportal.com/politica' ) - ,(u'Deportes' , u'http://lanacion.com.ar.feedsportal.com/deportes' ) - ,(u'Economia' , u'http://lanacion.com.ar.feedsportal.com/economia' ) - ,(u'Sociedad' , u'http://lanacion.com.ar.feedsportal.com/sociedad' ) - ,(u'Seguridad' , u'http://lanacion.com.ar.feedsportal.com/seguridad' ) - ,(u'Buenos Aires' , u'http://lanacion.com.ar.feedsportal.com/buenosaires' ) - ,(u'Opinion' , u'http://lanacion.com.ar.feedsportal.com/opinion' ) - ,(u'Espectaculos' , u'http://lanacion.com.ar.feedsportal.com/espectaculos' ) - ,(u'El Mundo' , u'http://lanacion.com.ar.feedsportal.com/mundo' ) - ,(u'Revista' , u'http://lanacion.com.ar.feedsportal.com/revistalanacion' ) - ,(u'Enfoques' , u'http://lanacion.com.ar.feedsportal.com/enfoques' ) - ,(u'Comercio Exterior' , u'http://lanacion.com.ar.feedsportal.com/comercioexterior' ) - ,(u'Tecnologia' , u'http://lanacion.com.ar.feedsportal.com/tecnologia' ) - ,(u'Turismo' , u'http://lanacion.com.ar.feedsportal.com/turismo' ) - ,(u'Al volante' , u'http://lanacion.com.ar.feedsportal.com/alvolante' ) - ,(u'El Campo' , u'http://lanacion.com.ar.feedsportal.com/elcampo' ) - ,(u'Moda y Belleza' , u'http://lanacion.com.ar.feedsportal.com/modaybelleza' ) - ,(u'Inmuebles Comerciales', u'http://lanacion.com.ar.feedsportal.com/inmueblescomerciales' ) - ,(u'Countries' , u'http://lanacion.com.ar.feedsportal.com/countries' ) - ,(u'adnCultura' , u'http://lanacion.com.ar.feedsportal.com/adncultura' ) - ,(u'The WSJ Americas' , u'http://lanacion.com.ar.feedsportal.com/wallstreetjournalamericas') + (u'Politica' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=30') + ,(u'Deportes' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=131') + ,(u'Economia' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=272') + ,(u'Sociedad' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=7773') + ,(u'Seguridad' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=7775') + ,(u'Buenos Aires' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=7774') + ,(u'Opinion' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=28') + ,(u'Espectaculos' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=120') + ,(u'El Mundo' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=7') + ,(u'Revista' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=494') + ,(u'Enfoques' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=421') + ,(u'Comercio Exterior' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=347') + ,(u'Tecnologia' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=432') + ,(u'Turismo' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=504') + ,(u'Al volante' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=371') + ,(u'El Campo' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=337') + ,(u'Moda y Belleza' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=1312') + ,(u'Inmuebles Comerciales', u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=1363') + ,(u'Countries' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=1348') + ,(u'Comunidad' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=1344') + ,(u'adnCultura' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=6734') + ,(u'The WSJ Americas' , u'http://contenidos.lanacion.com.ar/herramientas/rss/categoria_id=6373') ] - - def get_article_url(self, article): - link = article.get('guid', None) - if link.startswith('http://blogs.lanacion') and not link.endswith('/'): - return self.browser.open_novisit(link).geturl() - if link.rfind('galeria=') > 0: - return None - return link - def get_cover_url(self): soup = self.index_to_soup('http://www.lanacion.com.ar/edicion-impresa') atap = soup.find(attrs={'class':'tapa'}) if atap: - li = atap.find('img') - if li: - return li['src'] + li = atap.find('img') + if li: + return li['src'] return None - - def preprocess_html(self, soup): - for item in soup.findAll(style=True): - del item['style'] - for item in soup.findAll('a'): - limg = item.find('img') - if item.string is not None: - str = item.string - item.replaceWith(str) - else: - if limg: - item.name = 'div' - item.attrs = [] - else: - str = self.tag_to_string(item) - item.replaceWith(str) - for item in soup.findAll('img'): - if not item.has_key('alt'): - item['alt'] = 'image' - return soup