Fix bug 2342. ereader inspector script to aid in implementing writer. ereader writer tweaks.

2025-11-18 20:43:04 -05:00 · 2009-04-26 17:09:23 -04:00 · 2009-04-26 17:09:23 -04:00 · ccdb992992
commit ccdb992992
parent 1daf7bd86a
3 changed files with 131 additions and 3 deletions
--- a/src/calibre/ebooks/conversion/preprocess.py
+++ b/src/calibre/ebooks/conversion/preprocess.py
@ -95,6 +95,18 @@ class HTMLPreProcessor(object):
    # Fix pdftohtml markup
    PDFTOHTML  = [
                  # Fix umlauts
                  (re.compile(u'¨\s*(<br.*?>)*\s*o', re.UNICODE), lambda match: u'ö'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*O', re.UNICODE), lambda match: u'Ö'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*u', re.UNICODE), lambda match: u'ü'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*U', re.UNICODE), lambda match: u'Ü'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*e', re.UNICODE), lambda match: u'ë'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*E', re.UNICODE), lambda match: u'Ë'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*i', re.UNICODE), lambda match: u'ï'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*I', re.UNICODE), lambda match: u'Ï'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*a', re.UNICODE), lambda match: u'ä'),
                  (re.compile(u'¨\s*(<br.*?>)*\s*A', re.UNICODE), lambda match: u'Ä'),
                  # Remove page links
                  (re.compile(r'<a name=\d+></a>', re.IGNORECASE), lambda match: ''),
                  # Remove <hr> tags
--- a/src/calibre/ebooks/pdb/ereader/inspector.py
+++ b/src/calibre/ebooks/pdb/ereader/inspector.py
@ -0,0 +1,87 @@
 # -*- coding: utf-8 -*-
 '''
 Inspect the header of ereader files. This is primarily used for debugging.
 '''
 __license__   = 'GPL v3'
 __copyright__ = '2009, John Schember <john@nachtimwald.com>'
 __docformat__ = 'restructuredtext en'
 import struct, sys
 from calibre.ebooks.pdb.header import PdbHeaderReader
 from calibre.ebooks.pdb.ereader.reader import HeaderRecord
 def pdb_header_info(header):
    print 'PDB Header Info:'
    print ''
    print 'Identity:        %s' % header.ident
    print 'Total Sectons:   %s' % header.num_sections
    print 'Title:           %s' % header.title
    print ''
 def ereader_header_info(header):    
    h0 = header.section_data(0)
    print 'Ereader Record 0 (Header) Info:'
    print ''
    print '0-2 Version:             %i' % struct.unpack('>H', h0[0:2])[0]
    print '2-4:                     %i' % struct.unpack('>H', h0[2:4])[0]
    print '4-6:                     %i' % struct.unpack('>H', h0[4:6])[0]
    print '6-8:                     %i' % struct.unpack('>H', h0[6:8])[0]
    print '8-10:                    %i' % struct.unpack('>H', h0[8:10])[0]
    print '10-12:                   %i' % struct.unpack('>H', h0[10:12])[0]
    print '12-14 Non-Text:          %i' % struct.unpack('>H', h0[12:14])[0]
    print '14-16:                   %i' % struct.unpack('>H', h0[14:16])[0]
    print '16-18:                   %i' % struct.unpack('>H', h0[16:18])[0]
    print '18-20:                   %i' % struct.unpack('>H', h0[18:20])[0]
    print '20-22:                   %i' % struct.unpack('>H', h0[20:22])[0]
    print '22-24:                   %i' % struct.unpack('>H', h0[22:24])[0]
    print '24-26:                   %i' % struct.unpack('>H', h0[24:26])[0]
    print '26-28:                   %i' % struct.unpack('>H', h0[26:28])[0]
    print '28-30 footnote_rec:      %i' % struct.unpack('>H', h0[28:30])[0]
    print '30-32 sidebar_rec:       %i' % struct.unpack('>H', h0[30:32])[0]
    print '32-34 bookmark_offset:   %i' % struct.unpack('>H', h0[32:34])[0]
    print '34-36:                   %i' % struct.unpack('>H', h0[34:36])[0]
    print '36-38:                   %i' % struct.unpack('>H', h0[36:38])[0]
    print '38-40:                   %i' % struct.unpack('>H', h0[38:40])[0]
    print '40-42 image_data_offset: %i' % struct.unpack('>H', h0[40:42])[0]
    print '42-44:                   %i' % struct.unpack('>H', h0[42:44])[0]
    print '44-46 metadata_offset:   %i' % struct.unpack('>H', h0[44:46])[0]
    print '46-48:                   %i' % struct.unpack('>H', h0[46:48])[0]
    print '48-50 footnote_offset:   %i' % struct.unpack('>H', h0[48:50])[0]
    print '50-52 sidebar_offset:    %i' % struct.unpack('>H', h0[50:52])[0]
    print '52-54 last_data_offset:  %i' % struct.unpack('>H', h0[52:54])[0]
    print ''
 def section_lengths(header):
    print 'Section Sizes'
    print ''
    for i in range(0, header.section_count()):
        size = len(header.section_data(i))
        if size > 65505:
            message = '<--- Over!'
        else:
            message = ''
        print 'Section %i:   %i %s' % (i, size, message)
 def main(args=sys.argv):
    if len(args) < 2:
        print 'Error: requires input file.'
        return 1
    f = open(sys.argv[1], 'rb')
    pheader = PdbHeaderReader(f)
    pdb_header_info(pheader)
    ereader_header_info(pheader)
    section_lengths(pheader)
    return 0
 if __name__ == '__main__':
    sys.exit(main())
--- a/src/calibre/ebooks/pdb/ereader/writer.py
+++ b/src/calibre/ebooks/pdb/ereader/writer.py
@ -27,7 +27,7 @@ class Writer(object):
        hr = [self._header_record(len(text), len(images))]
-        sections = hr+text+images+metadata
+        sections = hr+text+images+metadata+['MeTaInFo\x00']
        lengths = [len(i) for i in sections]
@ -82,7 +82,7 @@ class Writer(object):
        if image_items > 0:
            image_data_offset = text_items + 1
            meta_data_offset = image_data_offset + image_items
-            last_data_offset = meta_data_offset + 1
+            last_data_offset = meta_data_offset + 2
        else:
            meta_data_offset = text_items + 1
            last_data_offset = meta_data_offset + 1
@ -90,6 +90,35 @@ class Writer(object):
        record = u''
        record += struct.pack('>H', version)                # [0:2]
        record += struct.pack('>H', 0)                      # [2:4]
        record += struct.pack('>H', 0)                      # [4:6]
        record += struct.pack('>H', 25152)                  # [6:8]   # 25152 is MAGIC
        record += struct.pack('>H', last_data_offset)       # [8:10]
        record += struct.pack('>H', last_data_offset)       # [10:12]
        record += struct.pack('>H', non_text_offset)        # [12:14] # non_text_offset
        record += struct.pack('>H', non_text_offset)        # [14:16]
        record += struct.pack('>H', 1)                      # [16:18]
        record += struct.pack('>H', 1)                      # [18:20]
        record += struct.pack('>H', 0)                      # [20:22]
        record += struct.pack('>H', 1)                      # [22:24]
        record += struct.pack('>H', 1)                      # [24:26]
        record += struct.pack('>H', 0)                      # [26:28]
        record += struct.pack('>H', 0)                      # [28:30] # footnote_rec
        record += struct.pack('>H', 0)                      # [30:32] # sidebar_rec
        record += struct.pack('>H', last_data_offset)       # [32:34] # bookmark_offset
        record += struct.pack('>H', 2560)                   # [34:36] # 2560 is MAGIC
        record += struct.pack('>H', non_text_offset)        # [36:38]
        record += struct.pack('>H', non_text_offset + 1)    # [38:40]
        record += struct.pack('>H', image_data_offset)      # [40:42]
        record += struct.pack('>H', image_data_offset)      # [42:44]
        record += struct.pack('>H', meta_data_offset)       # [44:46]
        record += struct.pack('>H', meta_data_offset)       # [46:48]
        record += struct.pack('>H', last_data_offset)       # [48:50] # footnote_offset
        record += struct.pack('>H', last_data_offset)       # [52:54] # sidebar_offset
        record += struct.pack('>H', last_data_offset)       # [54:56] # last_data_offset
        '''
        # Version
        record += struct.pack('>H', version)
        record = record.ljust(12, '\x00')
@ -112,6 +141,6 @@ class Writer(object):
        record += struct.pack('>H', last_data_offset)
        record = record.ljust(52, '\x00')
        record += struct.pack('>H', last_data_offset)
-        
+        '''
        return record