Add profile for The New Yorker

2025-07-09 03:04:10 -04:00 · 2008-02-13 05:13:00 +00:00 · 2008-02-13 05:13:00 +00:00 · c86e9afe5a
commit c86e9afe5a
parent a1389cfd57
2 changed files with 58 additions and 1 deletions
--- a/src/libprs500/ebooks/lrf/web/init.py
+++ b/src/libprs500/ebooks/lrf/web/init.py
@ -31,10 +31,11 @@ from libprs500.ebooks.lrf.web.profiles.jpost         import JerusalemPost
 from libprs500.ebooks.lrf.web.profiles.reuters       import Reuters
 from libprs500.ebooks.lrf.web.profiles.atlantic      import Atlantic 
 from libprs500.ebooks.lrf.web.profiles.ap            import AssociatedPress 
+from libprs500.ebooks.lrf.web.profiles.newyorker     import NewYorker 

 builtin_profiles   = [Atlantic, AssociatedPress, Barrons, BBC, 
                      ChristianScienceMonitor, CNN, Dilbert, Economist, FazNet, 
-                      JerusalemPost, Newsweek, NewYorkReviewOfBooks, NYTimes,  
+                      JerusalemPost, Newsweek, NewYorker, NewYorkReviewOfBooks, NYTimes,  
                      Portfolio, Reuters, SpiegelOnline, WallStreetJournal, ZeitNachrichten,   
                     ]

--- a/src/libprs500/ebooks/lrf/web/profiles/newyorker.py
+++ b/src/libprs500/ebooks/lrf/web/profiles/newyorker.py
@ -0,0 +1,56 @@
+'''
+	Profile to download Jutarnji.hr
+'''
+
+import re
+	
+from libprs500.ebooks.lrf.web.profiles import DefaultProfile 
+
+class NewYorker(DefaultProfile):
+	
+	title = 'The New Yorker'
+	max_recursions = 2
+	timefmt  = ' [%d %b %Y]'
+	max_articles_per_feed = 20
+	html_description = True
+	no_stylesheets = True
+	oldest_article = 14
+	
+	
+	## Getting the print version 
+	def print_version(self, url):
+		return url + '?printable=true'
+
+
+	preprocess_regexps = [
+		(re.compile(r'<body.*?<!-- start article content -->', re.IGNORECASE | re.DOTALL), lambda match : '<body>'),
+		(re.compile(r'<div class="utils"'), 
+		 lambda match : '<div class="utils" style="display:none"'),
+		(re.compile(r'<div class="articleRailLinks"'), 
+		 lambda match : '<div class="articleRailLinks" style="display:none"'),
+		(re.compile(r'<div id="keywords"'), 
+		 lambda match : '<div id="keywords" style="display:none"'), 
+		(re.compile(r'<!-- end article body -->.*?</body>', re.IGNORECASE | re.DOTALL), lambda match : '</body>'), 
+		(re.compile(r'<!-- start video content -->.*?<!-- end video content -->', re.IGNORECASE | re.DOTALL), lambda match : '<!-- start video content --><!-- end video content -->'), 
+		]
+	
+		
+	## Comment out the feeds you don't want retrieved.
+	## Or add any new new RSS feed URL's here, sorted alphabetically when converted to LRF
+	## If you want one of these at the top, append a space in front of the name.
+	
+	def get_feeds(self):
+		return  [
+        ('Online Only', 'http://feeds.newyorker.com/services/rss/feeds/online.xml'), 
+        ('The Talk Of The Town', 'http://feeds.newyorker.com/services/rss/feeds/talk.xml'), 
+		('Reporting and Essays', 'http://feeds.newyorker.com/services/rss/feeds/reporting.xml'), 
+        ('Arts and Culture', 'http://feeds.newyorker.com/services/rss/feeds/arts.xml'), 
+        ('Humor', 'http://feeds.newyorker.com/services/rss/feeds/humor.xml'), 
+        ('Fiction and Poetry', 'http://feeds.newyorker.com/services/rss/feeds/fiction.xml'), 
+		('Comment', 'http://feeds.newyorker.com/services/rss/feeds/comment.xml'), 
+		('The Financial Page', 'http://feeds.newyorker.com/services/rss/feeds/financial.xml'), 
+		('Politics', 'http://feeds.newyorker.com/services/rss/feeds/politics.xml'), 
+		('Movies', 'http://feeds.newyorker.com/services/rss/feeds/movies.xml'), 
+		('Books', 'http://feeds.newyorker.com/services/rss/feeds/books.xml'), 
+		('Tables For Two', 'http://feeds.newyorker.com/services/rss/feeds/tables.xml'), 
+                ]