Fix handling of '

2026-01-06 04:00:20 -05:00 · 2007-08-20 00:50:55 +00:00 · 2007-08-20 00:50:55 +00:00 · d5bd948404
commit d5bd948404
parent 7679166dbe
2 changed files with 4 additions and 4 deletions
--- a/src/libprs500/ebooks/lrf/html/convert_from.py
+++ b/src/libprs500/ebooks/lrf/html/convert_from.py
@ -50,10 +50,10 @@ class HTMLConverter(object):
    SELECTOR_PAT   = re.compile(r"([A-Za-z0-9\-\_\:\.]+[A-Za-z0-9\-\_\:\.\s\,]*)\s*\{([^\}]*)\}")
    PAGE_BREAK_PAT = re.compile(r'page-break-(?:after|before)\s*:\s*(\w+)', re.IGNORECASE)
    IGNORED_TAGS   = (Comment, Declaration, ProcessingInstruction)
-    replaced_entities = [ 'amp', 'lt', 'gt' , 'ldquo', 'rdquo', 'lsquo', 'rsquo' ]
+    replaced_entities = [ 'amp', 'lt', 'gt' , 'ldquo', 'rdquo', 'lsquo', 'rsquo']
    patterns = [ re.compile('&'+i+';') for i in replaced_entities ]
    targets  = [ unichr(name2codepoint[i]) for i in replaced_entities ]
-    ENTITY_RULES = zip(patterns, targets)
+    ENTITY_RULES = zip(patterns, targets) + [(re.compile('&apos;'), "'")]
    
     
    MARKUP_MASSAGE   = [
--- a/src/libprs500/ebooks/lrf/web/init.py
+++ b/src/libprs500/ebooks/lrf/web/init.py
@ -16,14 +16,14 @@
 import os, time, calendar, operator

 from libprs500 import iswindows
-from libprs500.ebooks.BeautifulSoup import BeautifulStoneSoup, BeautifulSoup
+from libprs500.ebooks.BeautifulSoup import BeautifulStoneSoup

 def parse_feeds(feeds, browser, print_version, max_articles_per_feed=10):
    articles = {}
    for title, url in feeds:
        src = browser.open(url).read()
        articles[title] = []
-        soup = BeautifulStoneSoup(src, convertEntities=BeautifulSoup.HTML_ENTITIES)
+        soup = BeautifulStoneSoup(src)
        for item in soup.findAll('item'):
            try:
                pubdate = item.find('pubdate').string