Implement namespace less parsing

2025-07-09 03:04:10 -04:00 · 2013-10-25 18:02:42 +05:30 · 2013-10-25 18:02:42 +05:30 · 2c6d5985a5
commit 2c6d5985a5
parent ea7930ee83
1 changed files with 76 additions and 18 deletions
--- a/src/calibre/ebooks/oeb/polish/parsing.py
+++ b/src/calibre/ebooks/oeb/polish/parsing.py
@ -24,6 +24,7 @@ from calibre.utils.cleantext import clean_xml_chars
 infoset_filter = InfosetFilter()
 to_xml_name = infoset_filter.toXmlName
 known_namespaces = {namespaces[k]:k for k in ('mathml', 'svg')}
+html_ns = namespaces['html']

 class NamespacedHTMLPresent(ValueError):

@ -32,11 +33,6 @@ class NamespacedHTMLPresent(ValueError):
        self.prefix = prefix

 # Nodes {{{
-def create_lxml_context():
-    parser = XMLParser(no_network=True)
-    parser.set_element_class_lookup(ElementDefaultClassLookup(element=Element, comment=Comment))
-    return parser
-
 def ElementFactory(name, namespace=None, context=None):
    context = context or create_lxml_context()
    ns = namespace or namespaces['html']
@ -45,9 +41,6 @@ def ElementFactory(name, namespace=None, context=None):
    except ValueError:
        return context.makeelement('{%s}%s' % (ns, to_xml_name(name)), nsmap={None:ns})

-def CommentFactory(text):
-    return Comment(text.replace('--', '- -'))
-
 class Element(ElementBase):

    ''' Implements the interface required by the html5lib tree builders (see
@ -146,6 +139,24 @@ class Element(ElementBase):
        for child in self:
            new_parent.append(child)

+class NoNameSpaceElement(Element):
+
+    @property
+    def namespace(self):
+        return None
+
+    @dynamic_property
+    def name(self):
+        def fget(self):
+            return self.tag
+        def fset(self, val):
+            self.tag = val
+        return property(fget=fget, fset=fset)
+
+    @property
+    def nameTuple(self):
+        return html_ns, self.tag
+
 class Comment(CommentBase):

    @dynamic_property
@ -214,6 +225,12 @@ class DocType(object):
    def __init__(self, name, public_id, system_id):
        self.text = self.name = name
        self.public_id, self.system_id = public_id, system_id
+
+def create_lxml_context(element=Element):
+    parser = XMLParser(no_network=True)
+    parser.set_element_class_lookup(ElementDefaultClassLookup(element=element, comment=Comment))
+    return parser
+
 # }}}

 def process_attribs(attrs, nsmap):
@ -262,15 +279,13 @@ def process_attribs(attrs, nsmap):
 class TreeBuilder(BaseTreeBuilder):

    elementClass = ElementFactory
-    commentClass = Comment
    documentClass = Document
    doctypeClass = DocType

    def __init__(self, namespaceHTMLElements=True):
-        BaseTreeBuilder.__init__(self, True)
+        BaseTreeBuilder.__init__(self, namespaceHTMLElements)
        self.lxml_context = create_lxml_context()
        self.elementClass = partial(ElementFactory, context=self.lxml_context)
-        self.seen_extra_html = False

    def getDocument(self):
        return self.document.root
@ -288,10 +303,10 @@ class TreeBuilder(BaseTreeBuilder):
        nsmap = nsmap or {}
        attribs = process_attribs(token['data'], nsmap)
        name = token["name"]
-        if name.endswith(':html'):
-            raise NamespacedHTMLPresent(name.rpartition(':')[0])
        namespace = token.get("namespace", self.defaultNamespace)
        if ':' in name:
+            if name.endswith(':html'):
+                raise NamespacedHTMLPresent(name.rpartition(':')[0])
            prefix, name = name.partition(':')[0::2]
            namespace = nsmap.get(prefix, namespace)
        try:
@ -353,14 +368,56 @@ class TreeBuilder(BaseTreeBuilder):
                for child in html:
                    newroot.append(copy.copy(child))

-def parse(raw, decoder=None, log=None):
+    def insertComment(self, token, parent=None):
+        if parent is None:
+            parent = self.openElements[-1]
+        parent.appendChild(Comment(token["data"].replace('--', '- -')))
+
+def process_namespace_free_attribs(attrs):
+    attribs = {k:v for k, v in attrs.iteritems() if ':' not in k}
+    for k in set(attrs) - set(attribs):
+        prefix, name = k.partition(':')[0::2]
+        if prefix != 'xmlns' and name not in attribs:
+            attribs[name] = attrs[k]
+    return attribs
+
+class NoNamespaceTreeBuilder(TreeBuilder):
+
+    def __init__(self, namespaceHTMLElements=False):
+        BaseTreeBuilder.__init__(self, namespaceHTMLElements)
+        self.lxml_context = create_lxml_context(element=NoNameSpaceElement)
+        self.elementClass = partial(ElementFactory, context=self.lxml_context)
+
+    def createElement(self, token, nsmap=None):
+        name = token['name'].rpartition(':')[2]
+        attribs = process_namespace_free_attribs(token['data'])
+        try:
+            return self.lxml_context.makeelement(name, attrib=attribs)
+        except ValueError:
+            attribs = {to_xml_name(k):v for k, v in attribs.iteritems()}
+            return self.lxml_context.makeelement(to_xml_name(name), attrib=attribs)
+
+    def apply_html_attributes(self, attrs):
+        if not attrs:
+            return
+        html = self.openElements[0]
+        attribs = process_namespace_free_attribs(attrs)
+        for k, v in attribs.iteritems():
+            if k not in html.attrib:
+                try:
+                    html.set(k, v)
+                except ValueError:
+                    html.set(to_xml_name(k), v)
+
+def parse(raw, decoder=None, log=None, discard_namespaces=False):
    if isinstance(raw, bytes):
        raw = xml_to_unicode(raw)[0] if decoder is None else decoder(raw)
    raw = fix_self_closing_cdata_tags(raw)  # TODO: Handle this in the parser
    raw = xml_replace_entities(raw)
+    builder = NoNamespaceTreeBuilder if discard_namespaces else TreeBuilder
    while True:
        try:
-            parser = HTMLParser(tree=TreeBuilder)
+            parser = HTMLParser(tree=builder, namespaceHTMLElements=not discard_namespaces)
            with warnings.catch_warnings():
                warnings.simplefilter('ignore', category=DataLossWarning)
                parser.parse(raw, parseMeta=False, useChardet=False)
@ -369,14 +426,15 @@ def parse(raw, decoder=None, log=None):
            continue
        break
    root = parser.tree.getDocument()
-    if root.tag != '{%s}%s' % (namespaces['html'], 'html') or root.prefix:
+    if (discard_namespaces and root.tag != 'html') or (
+        not discard_namespaces and (root.tag != '{%s}%s' % (namespaces['html'], 'html') or root.prefix)):
        raise ValueError('Failed to parse correctly, root has tag: %s and prefix: %s' % (root.tag, root.prefix))
    return root


 if __name__ == '__main__':
    from lxml import etree
-    root = parse('<html><p>&nbsp;')
-    print (etree.tostring(root))
+    root = parse('<html><p>&nbsp;<b>b', discard_namespaces=True)
+    print (etree.tostring(root, encoding='utf-8'))
    print()