When detecting the encoding of HTML documents, if the document contains multiple charset declarations, prefer the HTML 5 syntax to the HTML 4 syntax. Fixes #1364961 [Unicode Conversion on Amazon after Release 2.x](https://bugs.launchpad.net/calibre/+bug/1364961)

2025-08-30 23:00:21 -04:00 · 2014-09-04 15:45:24 +05:30 · 2014-09-04 15:45:24 +05:30 · 78e28cbe9e
commit 78e28cbe9e
parent e905c093b8
1 changed files with 2 additions and 2 deletions
--- a/src/calibre/ebooks/chardet.py
+++ b/src/calibre/ebooks/chardet.py
@ -12,10 +12,10 @@ import re, codecs
 ENCODING_PATS = [
    # XML declaration
    re.compile(r'<\?[^<>]+encoding\s*=\s*[\'"](.*?)[\'"][^<>]*>', re.IGNORECASE),
    # HTML 4 Pragma directive
    re.compile(r'''<meta\s+?[^<>]*?content\s*=\s*['"][^'"]*?charset=([-_a-z0-9]+)[^'"]*?['"][^<>]*>(?:\s*</meta>){0,1}''', re.IGNORECASE),
    # HTML 5 charset
    re.compile(r'''<meta\s+charset=['"]([-_a-z0-9]+)['"][^<>]*>(?:\s*</meta>){0,1}''', re.IGNORECASE),
    # HTML 4 Pragma directive
    re.compile(r'''<meta\s+?[^<>]*?content\s*=\s*['"][^'"]*?charset=([-_a-z0-9]+)[^'"]*?['"][^<>]*>(?:\s*</meta>){0,1}''', re.IGNORECASE),
 ]
 ENTITY_PATTERN = re.compile(r'&(\S+?);')