Amazon metadata download plugin: Improved parsing of broken HTML

2025-07-09 03:04:10 -04:00 · 2010-10-31 12:01:16 -06:00 · 2010-10-31 12:01:16 -06:00 · 92fe7d3725
commit 92fe7d3725
parent e268beaa90
1 changed files with 2 additions and 1 deletions
--- a/src/calibre/ebooks/metadata/amazon.py
+++ b/src/calibre/ebooks/metadata/amazon.py
@ -9,6 +9,7 @@ Fetch metadata using Amazon AWS
 import sys, re
 from lxml import html
 from lxml.html import soupparser
 from calibre import browser
 from calibre.ebooks.metadata import check_isbn
@ -71,7 +72,7 @@ def get_metadata(br, asin, mi):
        return False
    raw = xml_to_unicode(raw, strip_encoding_pats=True,
            resolve_entities=True)[0]
-    root = html.fromstring(raw)
+    root = soupparser.fromstring(raw)
    ratings = root.xpath('//form[@id="handleBuy"]/descendant::*[@class="asinReviewsSummary"]')
    if ratings:
        pat = re.compile(r'([0-9.]+) out of (\d+) stars')