Conversion pipeline: Discard broken CSS generated by Microsoft products before parsing. Should improve performance when converting HTML from Word in particular.

2025-07-07 18:24:30 -04:00 · 2011-02-17 15:47:14 -07:00 · 2011-02-17 15:47:14 -07:00 · 7ec5194d9b
commit 7ec5194d9b
parent b43c7d45a3
1 changed files with 6 additions and 0 deletions
--- a/src/calibre/ebooks/conversion/preprocess.py
+++ b/src/calibre/ebooks/conversion/preprocess.py
@ -264,10 +264,16 @@ class Dehyphenator(object):
 class CSSPreProcessor(object):
    PAGE_PAT   = re.compile(r'@page[^{]*?{[^}]*?}')
    # Remove some of the broken CSS Microsoft products
    # create
    MS_PAT     = re.compile(r'^\s*(mso-|panose-).+?$',
            re.MULTILINE|re.IGNORECASE)
    def __call__(self, data, add_namespace=False):
        from calibre.ebooks.oeb.base import XHTML_CSS_NAMESPACE
        data = self.PAGE_PAT.sub('', data)
        if '\n' in data:
            data = self.MS_PAT.sub('', data)
        if not add_namespace:
            return data
        ans, namespaced = [], False