Updated Sueddeutsche Zeitung

2025-08-11 09:13:57 -04:00 · 2010-04-28 07:05:07 -06:00 · 2010-04-28 07:05:07 -06:00 · a174d25164
commit a174d25164
parent 3fa5efd5d6
2 changed files with 32 additions and 35 deletions
--- a/resources/recipes/sueddeutschezeitung.recipe
+++ b/resources/recipes/sueddeutschezeitung.recipe
@ -5,9 +5,8 @@ __copyright__ = '2010, Darko Miletic <darko.miletic at gmail.com>'
 www.sueddeutsche.de/sz/
 '''

-import urllib
-from calibre import strftime
 from calibre.web.feeds.news import BasicNewsRecipe
+from calibre import strftime

 class SueddeutcheZeitung(BasicNewsRecipe):
    title                  = 'Sueddeutche Zeitung'
@ -20,12 +19,13 @@ class SueddeutcheZeitung(BasicNewsRecipe):
    encoding               = 'cp1252'
    needs_subscription     = True
    remove_empty_feeds     = True
+    delay                  = 2
    PREFIX                 = 'http://www.sueddeutsche.de'
-    INDEX                  = PREFIX + strftime('/sz/%Y-%m-%d/')
-    LOGIN                  = PREFIX + '/app/lbox/index.html'
+    INDEX                  = PREFIX + '/app/epaper/textversion/'
    use_embedded_content   = False
-    masthead_url           = 'http://pix.sueddeutsche.de/img/g_.gif'
+    masthead_url           = 'http://pix.sueddeutsche.de/img/layout/header/logo.gif'
    language               = 'de'
+    publication_type       = 'newspaper'
    extra_css              = ' body{font-family: Arial,Helvetica,sans-serif} '

    conversion_options = {
@ -40,49 +40,49 @@ class SueddeutcheZeitung(BasicNewsRecipe):

    def get_browser(self):
        br = BasicNewsRecipe.get_browser()
-        br.open(self.INDEX)
        if self.username is not None and self.password is not None:
-            data = urllib.urlencode({ 'login_name':self.username
-                                     ,'login_passwort':self.password
-                                     ,'lboxaction':'doLogin'
-                                     ,'passtxt':'Passwort'
-                                     ,'referer':self.INDEX
-                                     ,'x':'22'
-                                     ,'y':'7'
-                                   })
-            br.open(self.LOGIN,data)
+            br.open(self.INDEX)
+            br.select_form(name='lbox')
+            br['login_name'    ] = self.username
+            br['login_passwort'] = self.password
+            br.submit()
        return br

    remove_tags        =[
                         dict(attrs={'class':'hidePrint'})
                        ,dict(name=['link','object','embed','base','iframe'])
                        ]
-    remove_tags_before = dict(name='h2')
+    keep_only_tags     = [dict(attrs={'class':'artikelBox'})]
+    remove_tags_before =  dict(attrs={'class':'artikelTitel'})
    remove_tags_after  =  dict(attrs={'class':'author'})

    feeds = [
-               (u'Politik'      , INDEX + 'politik/'      )
-              ,(u'Seite drei'   , INDEX + 'seitedrei/'    )
-              ,(u'Meinungsseite', INDEX + 'meinungsseite/')
-              ,(u'Wissen'       , INDEX + 'wissen/'       )
-              ,(u'Panorama'     , INDEX + 'panorama/'     )
-              ,(u'Feuilleton'   , INDEX + 'feuilleton/'   )
-              ,(u'Medien'       , INDEX + 'medien/'       )
-              ,(u'Wirtschaft'   , INDEX + 'wirtschaft/'   )
-              ,(u'Sport'        , INDEX + 'sport/'        )
-              ,(u'Bayern'       , INDEX + 'bayern/'       )
-              ,(u'Muenchen'     , INDEX + 'muenchen/'     )
-              ,(u'jetzt.de'     , INDEX + 'jetzt.de/'     )
+               (u'Politik'      , INDEX + 'Politik/'      )
+              ,(u'Seite drei'   , INDEX + 'Seite+drei/'   )
+              ,(u'Meinungsseite', INDEX + 'Meinungsseite/')
+              ,(u'Wissen'       , INDEX + 'Wissen/'       )
+              ,(u'Panorama'     , INDEX + 'Panorama/'     )
+              ,(u'Feuilleton'   , INDEX + 'Feuilleton/'   )
+              ,(u'Medien'       , INDEX + 'Medien/'       )
+              ,(u'Wirtschaft'   , INDEX + 'Wirtschaft/'   )
+              ,(u'Sport'        , INDEX + 'Sport/'        )
+              ,(u'Bayern'       , INDEX + 'Bayern/'       )
+              ,(u'Muenchen'     , INDEX + 'M%FCnchen/'    )
            ]

    def parse_index(self):
+        src = self.index_to_soup(self.INDEX)
+        id = ''
+        for itt in src.findAll('a',href=True):
+            if itt['href'].startswith('/app/epaper/textversion/inhalt/'):
+               id = itt['href'].rpartition('/inhalt/')[2]
        totalfeeds = []
        lfeeds = self.get_feeds()
        for feedobj in lfeeds:
            feedtitle, feedurl = feedobj
            self.report_progress(0, _('Fetching feed')+' %s...'%(feedtitle if feedtitle else feedurl))
            articles = []
-            soup = self.index_to_soup(feedurl)
+            soup = self.index_to_soup(feedurl + id)
            tbl = soup.find(attrs={'class':'szprintd'})
            for item in tbl.findAll(name='td',attrs={'class':'topthema'}):
                atag    = item.find(attrs={'class':'Titel'}).a
@ -101,7 +101,3 @@ class SueddeutcheZeitung(BasicNewsRecipe):
                                    })
            totalfeeds.append((feedtitle, articles))
        return totalfeeds
-
-    def print_version(self, url):
-        return url + 'print.html'
-
--- a/src/calibre/ebooks/mobi/reader.py
+++ b/src/calibre/ebooks/mobi/reader.py
@ -61,7 +61,8 @@ class EXTHHeader(object):
                # last update time
                pass
            elif id == 503: # Long title
-                if not title or title == _('Unknown') or 'USER_CONTENT' in title:
+                if not title or title == _('Unknown') or \
+                        'USER_CONTENT' in title or title.startswith('dtp_'):
                    try:
                        title = content.decode(codec)
                    except: