Use lxml to handle HTML entities and <meta/>-specified encodings

2025-07-09 03:04:10 -04:00 · 2009-01-19 22:57:18 -05:00 · 2009-01-19 22:57:18 -05:00 · 50ea39227b
commit 50ea39227b
parent c198458f65
1 changed files with 7 additions and 13 deletions
--- a/src/calibre/ebooks/oeb/base.py
+++ b/src/calibre/ebooks/oeb/base.py
@ -15,10 +15,10 @@ from urlparse import urldefrag, urlparse, urlunparse
 from urllib import unquote as urlunquote
 import logging
 import re
-import htmlentitydefs
 import uuid
 import copy
 from lxml import etree
+from lxml import html
 from calibre import LoggingInterface

 XML_PARSER = etree.XMLParser(recover=True)
@ -67,14 +67,6 @@ OEB_IMAGES = set([GIF_MIME, JPEG_MIME, PNG_MIME, SVG_MIME])

 MS_COVER_TYPE = 'other.ms-coverimage-standard'

-recode = lambda s: s.decode('iso-8859-1').encode('ascii', 'xmlcharrefreplace')
-ENTITYDEFS = dict((k, recode(v)) for k, v in htmlentitydefs.entitydefs.items())
-del ENTITYDEFS['lt']
-del ENTITYDEFS['gt']
-del ENTITYDEFS['quot']
-del ENTITYDEFS['amp']
-del recode
-

 def element(parent, *args, **kwargs):
    if parent is not None:
@ -298,7 +290,6 @@ class Metadata(object):

 class Manifest(object):
    class Item(object):
-        ENTITY_RE = re.compile(r'&([a-zA-Z_:][a-zA-Z0-9.-_:]+);')
        NUM_RE = re.compile('^(.*)([0-9][0-9.]*)(?=[.]|$)')
    
        def __init__(self, id, href, media_type,
@ -317,9 +308,12 @@ class Manifest(object):
                % (self.id, self.href, self.media_type)

        def _force_xhtml(self, data):
-            repl = lambda m: ENTITYDEFS.get(m.group(1), m.group(0))
-            data = self.ENTITY_RE.sub(repl, data)
-            data = etree.fromstring(data, parser=XML_PARSER)
+            try:
+                data = etree.fromstring(data, parser=XML_PARSER)
+            except etree.XMLSyntaxError:
+                data = html.fromstring(data, parser=XML_PARSER)
+                data = etree.tostring(data, encoding=unicode)
+                data = etree.fromstring(data, parser=XML_PARSER)
            if namespace(data.tag) != XHTML_NS:
                data.attrib['xmlns'] = XHTML_NS
                data = etree.tostring(data)