From da826622b066b7502985ac3dcd9e536f5278d95e Mon Sep 17 00:00:00 2001
From: Kovid Goyal <kovid@kovidgoyal.net>
Date: Mon, 28 Jan 2008 02:10:18 +0000
Subject: [PATCH] A rewritten and much improved lrs2lrf

---
 src/libprs500/ebooks/lrf/lrs/convert_from.py  | 1250 ++++-------------
 src/libprs500/ebooks/lrf/objects.py           |    5 +-
 src/libprs500/ebooks/lrf/pylrs/pylrf.py       |    2 +-
 src/libprs500/ebooks/lrf/pylrs/pylrs.py       |   80 +-
 .../ebooks/lrf/web/profiles/__init__.py       |   35 +-
 src/libprs500/ebooks/lrf/web/profiles/wsj.py  |    4 +-
 6 files changed, 331 insertions(+), 1045 deletions(-)

diff --git a/src/libprs500/ebooks/lrf/lrs/convert_from.py b/src/libprs500/ebooks/lrf/lrs/convert_from.py
index 3ef82dc433..6fec9b508e 100644
--- a/src/libprs500/ebooks/lrf/lrs/convert_from.py
+++ b/src/libprs500/ebooks/lrf/lrs/convert_from.py
@@ -1,4 +1,4 @@
-##    Copyright (C) 2008 Roger Critchlow <rec@elf.org>
+##    Copyright (C) 2008 Kovid Goyal kovid@kovidgoyal.net
 ##    This program is free software; you can redistribute it and/or modify
 ##    it under the terms of the GNU General Public License as published by
 ##    the Free Software Foundation; either version 2 of the License, or
@@ -12,1004 +12,259 @@
 ##    You should have received a copy of the GNU General Public License along
 ##    with this program; if not, write to the Free Software Foundation, Inc.,
 ##    51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
+'''
+Compile a LRS file into a LRF file.
+'''
 
-#
-# major mismatch in Button/ButtonBlock/JumpButton
-# major mismatch in providing referenced object instead of object reference
-# 
+import sys, os, logging
 
-import sys, os
-from xml.etree.ElementTree import ElementTree
-
-from libprs500.ebooks.lrf.pylrs.pylrs import \
-     Book, StyleDefault, BookSetting, \
-     ImageBlock, Header, Footer, PutObj, \
-     Paragraph, CR, Italic, Bold, ImageStream, \
-     CharButton, Button, PushButton, JumpTo, \
-     Plot, Image, RuledLine, Canvas, DropCaps, \
-     Sup, Sub, Span, Text, EmpLine, Font, \
-     LrsError,  Space, Box, ButtonBlock, NoBR
-
-from libprs500 import __appname__, __version__
+from libprs500 import __author__, __appname__, __version__, setup_cli_handlers
+from libprs500.ebooks.BeautifulSoup import BeautifulStoneSoup, NavigableString, \
+                                           CData, Tag
+from libprs500.ebooks.lrf.pylrs.pylrs import Book, PageStyle, TextStyle, \
+            BlockStyle, ImageStream, Font, StyleDefault, BookSetting, Header, \
+            Image, ImageBlock, Page, TextBlock, Canvas, Paragraph, CR, Span, \
+            Italic, Sup, Sub, Bold, EmpLine, JumpButton, CharButton, Plot, \
+            DropCaps, Footer, RuledLine
 
 class LrsParser(object):
-    filterAttrib = ['objid', 'refobj', 'objlabel', 'pagestyle', 'blockstyle', 'textstyle', 'stylelabel',
-                    'evenheaderid', 'oddheaderid', 'evenfooterid', 'oddfooterid', 'page_tree_id', 'refstream']
-    def __init__(self, file):
-        self.file = file
-        self.book = Book()
-        self.objects = dict()
-        self.dobjects = dict()
-        self.tocs = list()
-        self.charbuttons = list()
-        self.jumptos = list()
-        self.pagestyles = list()
-        self.blockstyles = list()
-        self.textstyles = list()
-        self.footers = list()
-        self.headers = list()
-        self.putobjs = list()
-        self.plots = list()
-        self.images = list()
-        self.imageblocks = list()
-        self.root = ElementTree(file=file)
-
-    #
-    # find an element by objid
-    #
-    def get_element_by_objid(self, objid):
-        if objid not in self.objects:
-            for element in self.root.getiterator():
-                if 'objid' in element.attrib:
-                    id = element.attrib['objid']
-                    if id not in self.objects:
-                        self.objects[id] = element
-                    elif self.equal_element(self.objects[id], element):
-                        continue
-                    elif self.objects[id] != element:
-                        raise LrsError, "multiple objects with same objid=%s, %s and %s"%(id, element.tag, self.objects[id].tag)
-        if objid in self.objects:
-            return self.objects[objid]
-        return None
     
-    #
-    # put the tag and attributes into one string
-    #
-    def element_dump(self, element):
-        str = ""
-        str += "<%s"%element.tag
-        keys = element.attrib.keys()
-        keys.sort()
-        for key in keys:
-            str += " %s=\"%s\""%(key,element.attrib[key])
-        # should do something about sub elements and sub text
-        str += "/>"
-        return str
+    SELF_CLOSING_TAGS = [i.lower() for i in ['CR', 'Plot', 'NoBR', 'Space', 
+                         'PutObj', 'RuledLine', 
+                         'Plot', 'SetDefault', 'BookSetting', 'RegistFont',
+                         'PageStyle', 'TextStyle', 'BlockStyle', 'JumpTo',
+                         'ImageStream', 'Image']]
     
-    #
-    # compare two elements for identical tags and attributes
-    #
-    def equal_element(self, e1, e2):
-        return e1.tag == e2.tag and self._equal_attrib(e1, e2, ignore=[])
-
-    #
-    # compare two element attrib dictionaries for equivalence
-    # ignoring some attributes
-    #
-    def equal_attrib(self, e1, e2):
-        return self._equal_attrib(e1, e2, ignore=LrsParser.filterAttrib)
-
-    def _equal_attrib(self, e1, e2, ignore):
-        #print "comparing %s to %s in equal_attrib"%(e1.tag,e2.tag)
-        a1 = e1.attrib
-        a2 = e2.attrib
-        for name in a1.keys():
-            if name in ignore:
+    def __init__(self, stream, logger):
+        self.logger = logger
+        src = stream.read()
+        self.soup = BeautifulStoneSoup(src, selfClosingTags=self.SELF_CLOSING_TAGS)
+        self.objects = {}
+        for obj in self.soup.findAll(objid=True):
+            self.objects[obj['objid']] = obj
+        
+        self.parsed_objects = {}
+        self.first_pass()
+        self.second_pass()
+        self.third_pass()
+        self.fourth_pass()
+        self.fifth_pass()
+    
+    def fifth_pass(self):
+        for tag in self.soup.findAll(['canvas', 'header', 'footer']):
+            canvas = self.parsed_objects[tag.get('objid')]
+            for po in tag.findAll('putobj'):
+                canvas.put_object(self.parsed_objects[po.get('refobj')],
+                                  po.get('x1'), po.get('y1'))
+            
+    
+    @classmethod
+    def attrs_to_dict(cls, tag, exclude=('objid',)):
+        result = {}
+        for key, val in tag.attrs:
+            if key in exclude:
                 continue
-            if name not in a2:
-                #print "compare: %s in e1 not in e2"%name
-                return False
-            if a1[name] != a2[name]:
-                #print "compare: %s e1=%s != e2=%s"%(name, a1[name], a2[name])
-                return False
-        for name in a2.keys():
-            if name in ignore:
-                continue
-            if name not in a1:
-                #print "compare: %s in e1 not in e2"%name
-                return False
-            if a1[name] != a2[name]:
-                #print "compare: %s e1=%s != e2=%s"%(name, a1[name], a2[name])
-                return False
-        return True
-
-    #
-    # process an attrib dictionary for passing into a pylrs create
-    #
-    def process_attrib(self, element):
-        attrib = element.attrib.copy()
-        for name in LrsParser.filterAttrib:
-            if name in attrib:
-                id = attrib[name]
-                if name == 'objid':
-                    if id not in self.objects:
-                        self.objects[id] = element
-                    elif self.objects[id] != element and not self.equal_element(self.objects[id], element):
-                        raise LrsError, "multiple objects with same objid=%s, %s and %s"%(id, element.tag, self.objects[id].tag)
-                del attrib[name]
-        return attrib
-
-    #
-    # get and parse a style element
-    #
-    def fetch_style(self, element, stylename):
-        """get the style element referenced by stylename in element.attrib"""
-
-        if stylename not in element.attrib:
-            return None
-        id = element.attrib[stylename]
-        if id in self.dobjects:
-            return self.dobjects[id]
-        style = self.get_element_by_objid(id)
-        if style == None:
-            raise LrsError, "no %s style element found for objid=%s"%(stylename, id)
-        #print "found style type %s with objid = %s after getting %s"%(style.tag, style.attrib['objid'], id)
-        newstyle = None
-        #
-        # yuck - headers and footers really mess this up
-        # until then, there were no objid pointers in any
-        # style object.
-        # hmm, so maybe we push them always into the page
-        if stylename == 'pagestyle':
-            for e in self.pagestyles:
-                if self.equal_attrib(e, style):
-                    #print "making pagestyle %s alias to %s"%(id, e.attrib['objid'])
-                    newstyle = self.dobjects[e.attrib['objid']]
-                    break
-            if newstyle == None:
-                #print "making pagestyle %s"%id
-                self.pagestyles.append(style)
-                attrib = self.process_attrib(style)
-                for name in ['evenfooter', 'evenheader', 'footer', 'header', 'oddfooter', 'oddheader' ]:
-                    if name+'id' in style.attrib:
-                        attrib[name] = self.fetch_header_footer(style, name+'id')
-                newstyle = self.book.create_page_style(**attrib)
-        elif stylename == 'blockstyle':
-            for e in self.blockstyles:
-                if self.equal_attrib(e, style):
-                    #print "making blockstyle %s alias to %s"%(id, e.attrib['objid'])
-                    newstyle = self.dobjects[e.attrib['objid']]
-                    break
-            if newstyle == None:
-                #print "making blockstyle %s"%id
-                self.blockstyles.append(style)
-                newstyle = self.book.create_block_style(**self.process_attrib(style))
-        elif stylename == 'textstyle':
-            for e in self.textstyles:
-                if self.equal_attrib(e, style):
-                    #print "making textstyle %s alias to %s"%(id, e.attrib['objid'])
-                    newstyle = self.dobjects[e.attrib['objid']]
-                    break
-            if newstyle == None:
-                #print "making textstyle %s"%id
-                self.textstyles.append(style)
-                #if 'textlinewidth' in style.attrib:
-                #    print "creating new TextStyle with textlinewidth='%s'"%style.attrib['textlinewidth']
-                newstyle = self.book.create_text_style(**self.process_attrib(style))
+            result[str(key)] = val
+        return result
+    
+    def text_tag_to_element(self, tag):
+        map = {
+               'span'    : Span,
+               'italic'  : Italic,
+               'bold'    : Bold,
+               'empline' : EmpLine,
+               'sup'     : Sup,
+               'sub'     : Sub,
+               'cr'      : CR,
+               'drawchar': DropCaps,
+               }
+        if tag.name == 'charbutton':
+            return CharButton(self.parsed_objects[tag.get('refobj')], None)
+        if tag.name == 'plot':
+            return Plot(self.parsed_objects[tag.get('refobj')], **self.attrs_to_dict(tag, ['refobj']))
+        return map[tag.name](**self.attrs_to_dict(tag))
+    
+    def process_text_element(self, tag, elem):
+        for item in tag.contents:
+            if isinstance(item, NavigableString):
+                elem.append(item.string)
+            else:
+                subelem = self.text_tag_to_element(item)
+                elem.append(subelem)
+                self.process_text_element(item, subelem)
+        
+    
+    def process_paragraph(self, tag):
+        p = Paragraph()
+        contents = [i for i in tag.contents]
+        if contents:
+            if isinstance(contents[0], NavigableString):
+                contents[0] = contents[0].string.lstrip()
+            for item in contents:
+                if isinstance(item, basestring):
+                    p.append(item)
+                elif isinstance(item, NavigableString):
+                    p.append(item.string)
+                else:
+                    elem = self.text_tag_to_element(item)
+                    p.append(elem)
+                    self.process_text_element(item, elem)
+        return p
+    
+    def process_text_block(self, tag):
+        tb = self.parsed_objects[tag.get('objid')]
+        for item in tag.contents:
+            if hasattr(item, 'name'):
+                if item.name == 'p':
+                    tb.append(self.process_paragraph(item))
+                elif item.name == 'cr':
+                    tb.append(CR())
+            
+    def fourth_pass(self):
+        for tag in self.soup.findAll('page'):
+            page = self.parsed_objects[tag.get('objid')]
+            self.book.append(page)
+            for block_tag in tag.findAll(['canvas', 'imageblock', 'textblock', 'ruledline']):
+                if block_tag.name == 'ruledline':
+                    page.append(RuledLine(**self.attrs_to_dict(block_tag)))
+                else:
+                    page.append(self.parsed_objects[block_tag.get('objid')])
+                
+        for tag in self.soup.find('objects').findAll('button'):
+            jt = tag.find('jumpto')
+            tb = self.parsed_objects[jt.get('refobj')]
+            jb = JumpButton(tb)
+            self.book.append(jb)
+            self.parsed_objects[tag.get('objid')] = jb
+        
+        for tag in self.soup.findAll('textblock'):
+            self.process_text_block(tag)
+        
+        toc = self.soup.find('toc')
+        if toc:
+            for tag in toc.findAll('toclabel'):
+                label = self.tag_to_string(tag).encode('ascii', 'ignore') # Bug in SONY reader software cant handle non ascii toc labels
+                self.book.addTocEntry(label, self.parsed_objects[tag.get('refobj')])
+                
+    
+    def third_pass(self):
+        map = {
+               'page'       : (Page, ['pagestyle', 'evenfooterid', 'oddfooterid', 'evenheaderid', 'oddheaderid']),
+               'textblock'  : (TextBlock, ['textstyle', 'blockstyle']),
+               'imageblock' : (ImageBlock, ['blockstyle', 'refstream']),
+               'image'      : (Image, ['refstream']),
+               'canvas'     : (Canvas, ['canvaswidth', 'canvasheight']),
+               }
+        attrmap = {
+                   'pagestyle'  : 'pageStyle',
+                   'blockstyle' : 'blockStyle',
+                   'textstyle'  : 'textStyle',
+                   }
+        for id, tag in self.objects.items():
+            if tag.name in map.keys():
+                settings = self.attrs_to_dict(tag, map[tag.name][1]+['objid', 'objlabel'])
+                for a in ('pagestyle', 'blockstyle', 'textstyle'):
+                    if tag.has_key(a):
+                        settings[attrmap[a]] = self.parsed_objects[tag.get(a)]
+                for a in ('evenfooterid', 'oddfooterid', 'evenheaderid', 'oddheaderid'):
+                    if tag.has_key(a):
+                        settings[a.replace('id', '')] = self.parsed_objects[tag.get(a)]
+                args = []
+                if tag.has_key('refstream'):
+                    args.append(self.parsed_objects[tag.get('refstream')])
+                if tag.has_key('canvaswidth'):
+                    args += [tag.get('canvaswidth'), tag.get('canvasheight')]
+                self.parsed_objects[id] = map[tag.name][0](*args, **settings)
+                
+        
+    
+    def second_pass(self):
+        map = {
+               'pagestyle'  : (PageStyle, ['stylelabel', 'evenheaderid', 'oddheaderid', 'evenfooterid', 'oddfooterid']),
+               'textstyle'  : (TextStyle, ['stylelabel', 'rubyalignandadjust']),
+               'blockstyle' : (BlockStyle, ['stylelabel']),
+               'imagestream': (ImageStream, ['imagestreamlabel']),
+               'registfont' : (Font, [])
+               }
+        for id, tag in self.objects.items():
+            if tag.name in map.keys():
+                settings = self.attrs_to_dict(tag, map[tag.name][1]+['objid'])
+                if tag.name == 'pagestyle':
+                    for a in ('evenheaderid', 'oddheaderid', 'evenfooterid', 'oddfooterid'):
+                        if tag.has_key(a):
+                            settings[a.replace('id', '')] = self.parsed_objects[tag.get(a)]
+                self.parsed_objects[id] = map[tag.name][0](**settings)
+                if tag.name == 'registfont':
+                    self.book.append(self.parsed_objects[id])
+                    
+        
+    @classmethod
+    def tag_to_string(cls, tag):
+        '''
+        Convenience method to take a BeautifulSoup Tag and extract the text from it
+        recursively.
+        @return: A unicode (possibly empty) object
+        '''
+        if not tag:
+            return ''
+        strings = []
+        for item in tag.contents:
+            if isinstance(item, (NavigableString, CData)):
+                strings.append(item.string)
+            elif isinstance(item, Tag):
+                res = cls.tag_to_string(item)
+                if res:
+                    strings.append(res)
+        return u''.join(strings)     
+    
+    def first_pass(self):
+        info = self.soup.find('bbebxylog').find('bookinformation').find('info')
+        bookinfo = info.find('bookinfo')
+        docinfo  = info.find('docinfo')
+        
+        def me(base, tagname):
+            tag = base.find(tagname.lower())
+            tag = (self.tag_to_string(tag), tag.get('reading') if tag.has_key('reading') else '')
+            return tag
+            
+        title          = me(bookinfo, 'Title')
+        author         = me(bookinfo, 'Author')
+        publisher      = me(bookinfo, 'Publisher')
+        category       = me(bookinfo, 'Category')[0]
+        classification = me(bookinfo, 'Classification')[0]
+        freetext       = me(bookinfo, 'FreeText')[0]
+        language       = me(docinfo, 'Language')[0]
+        creator        = me(docinfo, 'Creator')[0]
+        producer       = me(docinfo, 'Producer')[0]
+        bookid         = me(bookinfo, 'BookID')[0]
+        
+        sd = self.soup.find('setdefault')
+        sd = StyleDefault(**self.attrs_to_dict(sd, ['page_tree_id', 'rubyalignandadjust']))
+        bs = self.soup.find('booksetting')
+        bs = BookSetting(**self.attrs_to_dict(bs, []))
+        
+        self.book = Book(title=title, author=author, publisher=publisher,
+                         category=category, classification=classification,
+                         freetext=freetext, language=language, creator=creator,
+                         producer=producer, bookid=bookid, setdefault=sd,
+                         booksetting=bs)
+        
+        for hdr in self.soup.findAll(['header', 'footer']):
+            elem = Header if hdr.name == 'header' else Footer
+            self.parsed_objects[hdr.get('objid')] = elem(**self.attrs_to_dict(hdr))    
+        
+    def render(self, file, to_lrs=False):
+        if to_lrs:
+            self.book.renderLrs(file, 'utf-8')
         else:
-            raise LrsError, "no handler for %s style name"
-        self.dobjects[id] = newstyle
-        return newstyle
+            self.book.renderLrf(file)
         
-    #
-    # get and parse a header or footer element
-    #
-    def fetch_header_footer(self, element, hfname):
-        """get the header/footer element referenced by hfname in element.attrib"""
 
-        if hfname not in element.attrib:
-            return None
-        id = element.attrib[hfname]
-        if id in self.dobjects:
-            return self.dobjects[id]
-        hf = self.get_element_by_objid(id)
-        if hf == None:
-            raise LrsError, "no %s element found for objid=%s"%(hfname, id)
-        #print "found header/footer type %s with objid = %s after getting %s"%(hf.tag, hf.attrib['objid'], id)
-        newhf = None
-        if hfname == 'evenheaderid' or hfname == 'oddheaderid':
-            for e in self.headers:
-                if self.equal_header_footer(e, hf):
-                    #print "making header/footer %s alias to %s"%(id, e.attrib['objid'])
-                    newhf = self.dobjects[e.attrib['objid']]
-                    break
-            if newhf == None:
-                #print "making header %s"%id
-                self.headers.append(hf)
-                newhf = self.process_Header(hf)
-        elif hfname == 'evenfooterid' or hfname == 'oddfooterid':
-            for e in self.footers:
-                if self.equal_header_footer(e, hf):
-                    #print "making footer %s alias to %s"%(id, e.attrib['objid'])
-                    newhf = self.dobjects[e.attrib['objid']]
-                    break
-            if newhf == None:
-                #print "making footer %s"%id
-                self.footers.append(hf)
-                newhf = self.process_Footer(hf)
-        else:
-            raise LrsError, "no handler for %s header/footer name"
-        self.dobjects[id] = newhf
-        return newhf
-        
-    #
-    # these mostly ignore the terminal elements, should be errors in the end
-    #
-    def process_leaf(self, element):
-        raise LrsError, "process leaf element %s???"%element.tag
-
-    def process_empty(self, element):
-        if element.text or element.getchildren():
-            raise LrsError, "element %s is not empty???"%element.tag
-
-    #
-    # elements referenced by sets of text elements
-    #
-    # def process_Rubi(rubi):
-    #    """Process <Rubi> element"""
-    #    for element in rubi:
-    #        if element.tag == "Oyamoji":
-    #            process_simple_char0(element)
-    #        elif element.tag == "Rubimoji":
-    #            process_simple_char0(element)
-    #        else:
-    #            print "No <Rubi> processor for ", element.tag
-    #            
-    # def process_AltString(altString):
-    #    """Process <AltString> element"""
-    #    for element in altString:
-    #        if element.tag == "Org":
-    #            process_text(element)
-    #        elif element.tag == "Alt":
-    #            process_text(element)
-    #        else:
-    #            print "No <AltString> processor for ", element.tag
-
-    #
-    # sets of text elements
-    #
-    def process_text(self, text, obj):
-        """process an element as text"""
-    
-        if text.text != None:
-            obj.append(Text(text.text))
-
-        for element in text:
-            print "No text processor for %s", self.element_dump(element)
-            if element.tail != None:
-                obj.append(Text(element.tail))
-
-        return obj
-    
-    #
-    # <Plot> occurs in draw_char, simple_char2, ...
-    #
-    def process_Plot(self, plot):
-        self.plots.append(plot)
-        plot.lrsplot = Plot(None, **self.process_attrib(plot))
-        return plot.lrsplot
-
-    def process_draw_char(self, draw_char, obj):
-        """Process an element in the DrawChar set"""
-
-        if draw_char.text != None:
-            obj.append(Text(draw_char.text))
-
-        for element in draw_char:
-            if element.tag == "Span":
-                span = self.process_draw_char(element, Span(**self.process_attrib(element)))
-                if not span.isEmpty():
-                    obj.append(span)
-            elif element.tag == "Plot":
-                obj.append(self.process_text(element, self.process_Plot(element)))
-            elif element.tag == "CR":
-                obj.append(CR())
-            elif element.tag == "Space":
-                obj.append(Space(**self.process_attrib(element)))
-            elif element.tag == "CharButton":
-                self.charbuttons.append(element)
-                element.lrscharbutton = CharButton(None, **self.process_attrib(element))
-                obj.append(self.process_simple_char1(element, element.lrscharbutton))
-            elif element.tag == "Sup":
-                obj.append(self.process_simple_char0(element, Sup()))
-            elif element.tag == "Sub":
-                obj.append(self.process_simple_char0(element, Sub()))
-            elif element.tag == "NoBR":
-                obj.append(self.process_simple_char1(element, NoBR()))
-            elif element.tag == "DrawChar":
-                obj.append(self.process_simple_char0(element, DropCaps(**self.process_attrib(element))))
-            elif element.tag == "Box":
-                obj.append(self.process_simple_char0(element, Box(**self.process_attrib(element))))
-            elif element.tag == "Italic":
-                obj.append(self.process_draw_char(element, Italic()))
-            elif element.tag == "Bold":
-                obj.append(self.process_draw_char(element, Bold()))
-            # elif element.tag == "Fill":
-            #    obj.append(Fill(**self.process_attrib(element)))
-            # elif element.tag == "Rubi":
-            #    obj.append(self.process_Rubi(element))
-            # elif element.tag == "Yoko":
-            #    obj.append(self.process_simple_char0(element, Yoko(**self.process_attrib(element))))
-            # elif element.tag == "Tate":
-            #    obj.append(self.process_simple_char2(element, Tate(**self.process_attrib(element))))
-            # elif element.tag == "Nekase":
-            #    obj.append(self.process_simple_char2(element, Nekase(**self.process_attrib(element))))
-            elif element.tag == "EmpLine":
-                obj.append(self.process_simple_char0(element, EmpLine(**self.process_attrib(element))))
-            # elif element.tag == "EmpDots":
-            #    obj.append(self.process_simple_char0(element, EmpDots(**self.process_attrib(element))))
-            # elif element.tag == "Gaiji":
-            #    obj.append(self.process_text(element, Gaiji(**self.process_attrib(element))))
-            # elif element.tag == "AltString":
-            #    obj.append(self.process_AltString(element))
-            else:
-                print "No DrawChar set processor for ", element.tag
-            if element.tail != None:
-                obj.append(Text(element.tail))
-
-        return obj
-
-    def process_simple_char0(self, simple_char0, obj):
-        """Process an element in the SimpleChar0 set"""
-
-        if simple_char0.text != None:
-            obj.append(Text(simple_char0.text))
-        for element in simple_char0:
-            if element.tag == "Plot":
-                obj.append(self.process_text(element, self.process_Plot(element)))
-            # elif element.tag == "Gaiji":
-            #    obj.append(process_text(element, Gaiji(**self.process_attrib(element))))
-            # elif element.tag == "AltString":
-            #    obj.append(process_AltString(element))
-            else:
-                print "No SimpleChar0 set processor for ", element.tag
-            if element.tail != None:
-                obj.append(Text(element.tail))
-
-        return obj
-
-    
-    def process_simple_char1(self, simple_char1, obj):
-        """Process an element in the SimpleChar1 set"""
-        if simple_char1.text != None:
-            obj.append(Text(simple_char1.text))
-
-        for element in simple_char1:
-            if element.tag == "Box":
-                obj.append(self.process_simple_char0(element), Box(**self.process_attrib(element)))
-            elif element.tag == "Sub":
-                obj.append(self.process_simple_char0(element, Sub(**self.process_attrib(element))))
-            elif element.tag == "Sup":
-                obj.append(self.process_simple_char0(element, Sup(**self.process_attrib(element))))
-            elif element.tag == "Space":
-                obj.append(Space(**self.process_attrib(element)))
-            #    elif element.tag == "Rubi":
-            #        obj.append(process_Rubi(element))
-            #    elif element.tag == "Gaiji":
-            #        obj.append(process_text(element, Gaiji(**self.process_attrib(element))))
-            #    elif element.tag == "EmpDots":
-            #        obj.append(process_simple_char0(element, EmpDots(**self.process_attrib(element))))
-            #    elif element.tag == "EmpLine":
-            #        obj.append(process_simple_char0(element, EmpLine(**self.process_attrib(element))))
-            #    elif element.tag == "AltString":
-            #        obj.append(process_AltString(element))
-            else:
-                print "No SimpleChar1 set processor for ", element.tag
-            if element.tail != None:
-                obj.append(Text(element.tail))
-
-        return obj
-
-    def process_simple_char2(self, simple_char2, obj):
-        """Process an element in the SimpleChar2 set"""
-
-        if simple_char2.text != None:
-            obj.append(Text(simple_char2.text))
-
-        for element in simple_char2:
-            if element.tag == "Plot":
-                obj.append(self.process_text(element, self.process_Plot(element)))
-            # elif element.tag == "Gaiji":
-            #    obj.append(process_text(element, Gaiji(**self.process_attrib(element))))
-            # elif element.tag == "AltString":
-            #    obj.append(process_AltString(element))
-            else:
-                print "No SimpleChar2 set processor for ", element.tag
-            if element.tail != None:
-                obj.append(Text(element.tail))
-
-        return obj
-
-    #
-    # <PutObj> occurs in <Canvas>, <Header>, <Footer>
-    #
-    def process_PutObj(self, putobj):
-        self.putobjs.append(putobj)
-        putobj.lrsputobj = PutObj(None, **self.process_attrib(putobj))
-        return putobj.lrsputobj
-
-    #
-    # <Canvas> occurs in <Page>, <Objects>, <Window>
-    #
-    def process_Canvas(self, canvas):
-        """Process the <Canvas> element"""
-
-        width = canvas.attrib['canvaswidth']
-        height = canvas.attrib['canvasheight']
-        del canvas.attrib['canvaswidth']
-        del canvas.attrib['canvasheight']
-        dcanvas = Canvas(width=width, height=height, **self.process_attrib(canvas))
-        
-        # text permitted?
-        for element in canvas:
-            if element.tag == "PutObj":
-                dcanvas.append(self.process_PutObj(element))
-            # elif element.tag == "MoveTo":
-            #     dcanvas.append(MoveTo(**self.process_attrib(element)))
-            # elif element.tag == "LineTo":
-            #     dcanvas.append(LineTo(**self.process_attrib(element)))
-            # elif element.tag == "DrawBox":
-            #     dcanvas.append(DrawBox(**self.process_attrib(element)))
-            # elif element.tag == "DrawEllipse":
-            #     dcanvas.append(DrawEllipse(**self.process_attrib(element)))
-            else:
-                print "No <Canvas> processor for ", element.tag
-            # tail text permitted?
-        return dcanvas
-
-
-    #
-    # <TextBlock> occurs in <Page>, <Objects>, <Window>, <PopUpWin>
-    #
-    def process_TextBlock(self, textBlock):
-        """Process the <TextBlock> element"""
-
-        self.dobjects[textBlock.attrib['objid']] = \
-            dtextblock = self.book.create_text_block(textStyle=self.fetch_style(textBlock, 'textstyle'),
-                                            blockStyle=self.fetch_style(textBlock, 'blockstyle'),
-                                            **self.process_attrib(textBlock))
-        # text permitted?
-        for element in textBlock:
-            if element.tag == "P":
-                dtextblock.append(self.process_draw_char(element, Paragraph()))
-            elif element.tag == "CR":
-                dtextblock.append(CR())
-            else:
-                print "No <TextBlock> processor for ", element.tag
-            # tail text permitted?
-        return dtextblock
-        
-    #
-    # helper for buttons
-    #
-    def process_some_Button(self, button, dbutton, name):
-
-        # text permitted?
-        for element in button:
-            if element.tag == "JumpTo":
-                refobj = element.attrib['refobj']
-                if refobj in self.dobjects:
-                    dbutton.append(JumpTo(self.dobjects[refobj]))
-                else:
-                    self.jumptos.append(element)
-                    element.lrsjumpto = JumpTo(None)
-                    dbutton.append(element.lrsjumpto)
-            #elif element.tag == "Run":
-            #    dbutton.append(Run(**self.process_attrib(element)))
-            #elif element.tag == "SoundStop":
-            #    dbutton.append(SoundStop(**self.process_attrib(element)))
-            #elif element.tag == "CloseWindow":
-            #    dbutton.append(CloseWindow(**self.process_attrib(element)))
-            else:
-                print "No ", name, " processor for ", element.tag
-            # tail text permitted?
-        return dbutton
-                
-    #
-    # <PushButton> occurs in <ButtonBlock>, <Button>
-    #
-    def process_PushButton(self, button):
-        """Process the <PushButton> element"""
-        return self.process_some_Button(button, PushButton(**button.attrib), "<PushButton>")
-    
-
-    #
-    # <FocusinButton> occurs in <ButtonBlock>, <Button>
-    #
-    def process_FocusinButton(self, button):
-        """Process the <FocusinButton> element"""
-        return self.process_some_Button(button, FocusinButton(**button.attrib), "<FocusinButton>")
-
-    #
-    # <UpButton> occurs in <ButtonBlock>, <Button>
-    #
-    def process_UpButton(self, button):
-        """Process the <FocusinButton> element"""
-        return self.process_some_Button(button, UpButton(**button.attrib), "<UpButton>")
-    
-    #
-    # <ButtonBlock> occurs in <Page>, <Objects>, <Window>
-    #
-    def process_ButtonBlock(self, buttonBlock):
-        """Process the <ButtonBlock> element"""
-    
-        dbuttonblock = ButtonBlock()
-        # text permitted?
-        for element in buttonBlock:
-            if element.tag == "BaseButton":
-                dbuttonblock.append(BaseButton(**self.process_attrib(element)))
-            elif element.tag == "FocusinButton":
-                dbuttonblock.append(self.process_FocusinButton(element))
-            elif element.tag == "PushButton":
-                dbuttonblock.append(self.process_PushButton(element))
-            elif element.tag == "UpButton":
-                dbuttonblock.append(self.process_UpButton(element))
-            else:
-                print "No <%s> processor for <%s>"%(buttonBlock.tag,element.tag)
-            # tail text permitted?
-        return dbuttonblock
-
-    #
-    # <ImageBlock> occurs in ...
-    #
-    def process_ImageBlock(self, imageblock):
-        self.imageblocks.append(imageblock)
-        imageblock.lrsimageblock = ImageBlock(None, **self.process_attrib(imageblock))
-        self.dobjects[imageblock.attrib['objid']] = imageblock.lrsimageblock
-        return self.process_text(imageblock, imageblock.lrsimageblock)
-        
-    #
-    # <Image> occurs in ...
-    def process_Image(self, image):
-        self.images.append(image)
-        image.lrsimage = Image(None, **self.process_attrib(image))
-        self.dobjects[image.attrib['objid']] = image.lrsimage
-        return self.process_text(image, image.lrsimage)
-
-    #
-    # <Button> occurs at toplevel, also <Page>, <Objects>, <Window>
-    #
-    def process_Button(self, button):
-        """Process the <Button> element"""
-    
-        self.dobjects[button.attrib['objid']] = \
-            dbutton = Button(**self.process_attrib(button))
-        # text permitted?
-        for element in button:
-            if element.tag == "BaseButton":
-                dbutton.append(BaseButton(**self.process_attrib(element)))
-            elif element.tag == "FocusinButton":
-                dbutton.append(self.process_FocusinButton(element))
-            elif element.tag == "PushButton":
-                dbutton.append(self.process_PushButton(element))
-            elif element.tag == "UpButton":
-                dbutton.append(self.process_UpButton(element))
-            else:
-                print "No <Button> processor for <%s>"%element.tag
-            # tail text permitted?
-        return dbutton
-
-    #
-    # <Page> occurs in <Main>, <PageTree>#
-    #
-    def process_Page(self, page):
-        """Process the <Page> element"""
-    
-        attrib = self.process_attrib(page)
-        for name in ['evenfooter', 'evenheader', 'footer', 'header', 'oddfooter', 'oddheader' ]:
-            if name+'id' in page.attrib:
-                attrib[name] = self.fetch_header_footer(page, name+'id')
-        self.dobjects[page.attrib['objid']] = \
-            dpage = self.book.create_page(pageStyle=self.fetch_style(page, 'pagestyle'), **attrib)
-        # text permitted?
-        for element in page:
-            if element.tag == "TextBlock":
-                dpage.append(self.process_TextBlock(element))
-            elif element.tag == "ImageBlock":
-                dpage.append(self.process_ImageBlock(element))
-            elif element.tag == "ButtonBlock":
-                dpage.append(self.process_ButtonBlock(element))
-            elif element.tag == "Button":
-                dpage.append(self.process_Button(element))
-            elif element.tag == "BlockSpace":
-                dpage.BlockSpace(**self.process_attrib(element))
-            elif element.tag == "Canvas":
-                dpage.append(self.process_Canvas(element))
-            elif element.tag == "RuledLine":
-                dpage.append(RuledLine(**self.process_attrib(element)))
-            #elif element.tag == "Wait":
-            #    dpage.append(Wait(**self.process_attrib(element)))
-            else:
-                print "No <Page> processor for ", element.tag
-            # tail text permitted?
-        return dpage
-
-    # <Header> occurs in <Objects>
-    def process_Header(self,header):
-        """Process <Header> element"""
-        
-        dheader = Header(**self.process_attrib(header))
-        
-        for element in header:
-            if element.tag == "PutObj":
-                dheader.append(self.process_PutObj(element))
-            # elif element.tag == "MoveTo":
-            #     dheader.append(MoveTo(**self.process_attrib(element)))
-            # elif element.tag == "LineTo":
-            #     dheader.append(LineTo(**self.process_attrib(element)))
-            # elif element.tag == "DrawBox":
-            #     dheader.append(DrawBox(**self.process_attrib(element)))
-            # elif element.tag == "DrawEllipse":
-            #     dheader.append(DrawEllipse(**self.process_attrib(element)))
-            else:
-                print "No <Header> processor for ", element.tag
-
-        return dheader
-
-    # <Footer> occurs in <Objects>
-    def process_Footer(self, footer):
-        """Process <Foother> element"""
-
-        dfooter = Footer(**self.process_attrib(footer))
-        
-        for element in footer:
-            if element.tag == "PutObj":
-                dfooter.append(self.process_PutObj(element))
-            # elif element.tag == "MoveTo":
-            #     dheader.append(MoveTo(**self.process_attrib(element)))
-            # elif element.tag == "LineTo":
-            #     dheader.append(LineTo(**self.process_attrib(element)))
-            # elif element.tag == "DrawBox":
-            #     dheader.append(DrawBox(**self.process_attrib(element)))
-            # elif element.tag == "DrawEllipse":
-            #     dheader.append(DrawEllipse(**self.process_attrib(element)))
-            else:
-                print "No <Footer> processor for ", element.tag
-
-        return dfooter
-
-    #
-    # <ImageStream> occurs in <Objects>
-    #
-    def process_ImageStream(self, imagestream):
-        self.dobjects[imagestream.attrib['objid']] = \
-            dimagestream = ImageStream(**self.process_attrib(imagestream))
-        return self.process_text(imagestream, dimagestream)
-
-    #
-    # Toplevel elements.
-    #            
-
-    #
-    # <BookInformation> occurs at toplevel
-    #
-    def process_BookInformation(self, bookInformation):
-        """Process the <BookInformation> element"""
-
-        dbookinformation = self.book.delegates[0]
-        
-        def process_Info(info):
-            """Process the <Info> element"""
-
-            dinfo = dbookinformation.delegates[0]
-        
-            def process_BookInfo(bookInfo):
-                """Process the <BookInfo> element"""
-
-                dbookinfo = dinfo.delegates[0]
-
-                for element in bookInfo:
-                    if element.tag == "Title":
-                        dbookinfo.title = (element.text, element.get("reading"))
-                    elif element.tag == "Author":
-                        dbookinfo.author = (element.text, element.get("reading"))
-                    elif element.tag == "BookID":
-                        dbookinfo.bookid = element.text
-                    elif element.tag == "Publisher":
-                        dbookinfo.publisher = element.text
-                    elif element.tag == "Label":
-                        dbookinfo.label = element.text
-                    elif element.tag == "Category":
-                        dbookinfo.category = element.text
-                    elif element.tag == "Classification":
-                        dbookinfo.classification = element.text
-                    elif element.tag == "FreeText":
-                        dbookinfo.freetext = element.text
-                    else:  
-                        print "No <BookInfo> processor for ", element.tag
-
-            def process_DocInfo(docInfo):
-                """Process the <DocInfo> element"""
-            
-                ddocinfo = dinfo.delegates[1]
-            
-                for element in docInfo:
-                    if element.tag == "Language":
-                        ddocinfo.language = element.text
-                    elif element.tag == "Creator":
-                        ddocinfo.creator = element.text
-                    elif element.tag == "CreationDate":
-                        ddocinfo.creationdate = element.text
-                    elif element.tag == "Producer":
-                        ddocinfo.producer = element.text
-                    elif element.tag == "SumPage":
-                        ddocinfo.numberofpages = element.text
-                    elif element.tag == "CThumbnail":
-                        self.book.delegates[0].delegates[0].delegates[1].thumbnail = element.text
-                    else:
-                        print "No <DocInfo> processor for ", element.tag
-
-            for element in info:
-                if element.tag == "BookInfo":
-                    process_BookInfo(element)
-                elif element.tag == "DocInfo":
-                    process_DocInfo(element)
-                # elif element.tag == "Keyword":
-                #    # <Keyword>* 
-                #    process_text(element)
-                else:
-                    print "No <Info> processor for ", element.tag
-
-        def process_TOC(toc):
-            """Process the <TOC> element in <BookInformation>"""
-        
-            self.tocs.append(toc)
-            for element in toc:
-                if element.tag != "TocLabel":
-                    print "No <TOC> Processor for ", element.tag
-            
-        for element in bookInformation:
-            if element.tag == "Info":
-                process_Info(element)
-            elif element.tag == "TOC":
-                process_TOC(element)
-            else:
-                print "No <BookInformation> processor for ", element.tag
-
-    #
-    # <Main> occurs in toplevel
-    #            
-    def process_Main(self, main):
-        """Process the <Main> element"""
-        # merge atrib onto existing Main element
-        for element in main:
-            if element.tag == "Page":
-                self.book.appendPage(self.process_Page(element))
-            else:
-                print "No <Main> processor for ", element.tag
-
-    #
-    # <PageTree> occurs in toplevel
-    #
-    def process_PageTree(self, pageTree):
-        """Process the <PageTree> element"""
-
-        dpagetree = self.book.delegates[4].Solo(**pageTree.attrib)
-    
-        for element in pageTree:
-            if element.tag == "Page":
-                dpagetree.appendPage(self.process_Page(element))
-            else:
-                print "No <PageTree> processor for ", element.tag
-
-    #
-    # <Style> occurs in toplevel
-    #
-    def process_Style(self, style):
-        """Process the <Style> element"""
-
-        dstyle = self.book.delegates[3]
-    
-        def process_BookStyle(bookStyle):
-            """Process the <BookStyle> element"""
-
-            dbookstyle = dstyle.delegates[0]
-
-            for element in bookStyle:
-                if element.tag == "SetDefault":
-                    dbookstyle.styledefault = StyleDefault(**self.process_attrib(element))
-                elif element.tag == "BookSetting":
-                    dbookstyle.booksetting = BookSetting(**self.process_attrib(element))
-                elif element.tag == "RegistFont":
-                    dbookstyle.append(Font(**self.process_attrib(element)))
-                else:
-                    print "No <BookStyle> processor for ", element.tag
-                
-        for element in style:
-            if element.tag == "BookStyle":
-                process_BookStyle(element)
-            elif element.tag == "PageStyle":
-                # ignore - self.book.append(PageStyle(**self.process_attrib(element)))
-                None
-            elif element.tag == "TextStyle":
-                # ignore - self.book.append(TextStyle(**self.process_attrib(element)))
-                None
-            elif element.tag == "BlockStyle":
-                # ignore - self.book.append(BlockStyle(**self.process_attrib(element)))
-                None
-            else:
-                print "No <Style> processor for ", element.tag
-
-    #
-    # <Objects> occurs at toplevel
-    #
-    def process_Objects(self, objects):
-        """Process the <Objects> element"""
-
-        dobjects = self.book.delegates[5]
-
-        # <Window> occurs in <Objects>
-        # def process_Window(window):
-        #     """Process the <Window> element"""
-        #
-        #     dwindow = Window(**self.process_attrib(window))
-        #
-        #     for element in window:
-        #         if element.tag == "TextBlock":
-        #             dwindow.append(self.process_TextBlock(element))
-        #         elif element.tag == "ImageBlock":
-        #             dwindow.append(self.process_ImageBlock(element)
-        #         elif element.tag == "ButtonBlock":
-        #             dwindow.append(self.process_ButtonBlock(element))
-        #         elif element.tag == "Button":
-        #             dwindow.append(self.process_Button(element))
-        #         elif element.tag == "Canvas":
-        #             dwindow.append(self.process_Canvas(element))
-        #         elif element.tag == "RuledLine":
-        #             dwindow.append(RuledLine(**self.process_attrib(element)))
-        #         elif element.tag == "Wait":
-        #             dwindow.append(Wait(**self.process_attrib(element)))
-        #         else:
-        #             print "No <Window> processor for ", element.tag
-
-        # <PopUpWin> occurs in <Objects>
-        # def process_PopUpWin(popUpWin):
-        #     """Process <PopUpWin> element"""
-        #     dpopupwin = PopUpWin(**self.process_attrib(popUpWin))
-        #     for element in popUpWin:
-        #         if element.tag == "TextBlock":
-        #             dpopupwin.append(process_TextBlock(element))
-        #         elif element.tag == "ImageBlock":
-        #             dpopup.append(self.process_ImageBlock(element))
-        #         else:
-        #             print "No <PopUpWin> processor for ", element.tag
-        
-        # <TOC> doesn't occur in <Objects>, but we try it
-        # def process_TOC(toc):
-        #     """Process the <TOC> element in <Objects>"""
-        #     for element in toc:
-        #         if element.tag == "TocLabel":
-        #             # problem here, the pylrs TocLabel wants the textBlock
-        #             # not the refobj and refpage that are the specified attributes of the TocLabel
-        #             process_leaf(element)
-        #         else:
-        #             print "No <TOC> Processor for ", element.tag
-                
-        for element in objects:
-            if element.tag == "TextBlock":
-                dobjects.append(self.process_TextBlock(element))
-            elif element.tag == "ImageBlock":
-                dobjects.appendImageBlock(self.process_ImageBlock(element))
-            elif element.tag == "ButtonBlock":
-                dobjects.append(self.process_ButtonBlock(element))
-            elif element.tag == "Button":
-                dobjects.append(self.process_Button(element))
-            elif element.tag == "Canvas":
-                dobjects.append(self.process_Canvas(element))
-            # elif element.tag == "Window":
-            #     dobjects.appendWindow(process_Window(element))
-            # elif element.tag == "PopUpWin":
-            #     dobjects.appendPopUpWin(process_PopUpWin(element))
-            # elif element.tag == "Sound":
-            #     dobjects.appendSound(self.process_empty(element))
-            # elif element.tag == "SoundStream":
-            #     dobjects.appendSoundStream(self.process_empty(element))
-            elif element.tag == "ImageStream":
-                dobjects.appendImageStream(self.process_ImageStream(element))
-            elif element.tag == "Header":
-                # processed as part of Page or PageStyle, just skip here
-                None    # self.process_Header(element)
-            elif element.tag == "Footer":
-                # processed as part of Page or PageStyle
-                None    # self.process_Footer(element)
-            # elif element.tag == "eSound":
-            #     dobjects.appendeSound(process_empty(element))
-            elif element.tag == "Image":
-                dobjects.appendImage(self.process_Image(element))
-            # elif element.tag == "TOC":
-            #     dobjects.appendTOC(process_TOC(element))
-            else:
-                print "No <Objects> processor for ", element.tag
-
-    #
-    #
-    #
-    def process_file(self):
-        # Iterate
-        for element in self.root.getroot():
-            # switch on element.tag
-            if element.tag == "Property":
-                self.process_empty(element)
-            elif element.tag == "BookInformation":
-                self.process_BookInformation(element)
-            elif element.tag == "Main":
-                self.process_Main(element)
-            elif element.tag == "PageTree":
-                self.process_PageTree(element)
-            elif element.tag == "Template":
-                self.process_empty(element)
-            elif element.tag == "Style":
-                self.process_Style(element)
-            elif element.tag == "Objects":
-                self.process_Objects(element)
-            else:
-                print "\tNo toplevel processor for ", element.tag
-        # Post processing
-        for toc in self.tocs:
-            for tocLabel in toc:
-                refobj = tocLabel.attrib['refobj']
-                if refobj not in self.dobjects:
-                    raise LrsError, "TocLabel reference to %s did not resolve"%refobj
-                else:
-                    self.book.addTocEntry(tocLabel.text, self.dobjects[refobj])
-        for cb in self.charbuttons:
-            refobj = cb.attrib['refobj']
-            if refobj not in self.dobjects:
-                raise LrsError, "CharButton reference to %s did not resolve"%refobj
-            else:
-                cb.lrscharbutton.setButton(self.dobjects[refobj])
-        for jt in self.jumptos:
-            refobj = jt.attrib['refobj']
-            if refobj not in self.dobjects:
-                raise LrsError, "JumpTo reference to %s did not resolve"%refobj
-            else:
-                jt.lrsjumpto.setTextBlock(self.dobjects[refobj])
-        for po in self.putobjs:
-            refobj = po.attrib['refobj']
-            if refobj not in self.dobjects:
-                raise LrsError, "PutObj reference to %s did not resolve"%refobj
-            else:
-                po.lrsputobj.setContent(self.dobjects[refobj])
-        for pl in self.plots:
-            refobj = pl.attrib['refobj']
-            if refobj not in self.dobjects:
-                raise LrsError, "Plot reference to %s did not resolve"%refobj
-            else:
-                pl.lrsplot.setObj(self.dobjects[refobj])
-        for im in self.images:
-            refstream = im.attrib['refstream']
-            if refstream not in self.dobjects:
-                raise LrsError, "Image reference to %s did not resolve"%refstream
-            else:
-                im.lrsimage.setRefstream(self.dobjects[refstream])
-        for ib in self.imageblocks:
-            refstream = ib.attrib['refstream']
-            if refstream not in self.dobjects:
-                raise LrsError, "ImageBlock reference to %s did not resolve"%refstream
-            else:
-                ib.lrsimageblock.setRefstream(self.dobjects[refstream])
-                
-    def renderLrf(self, file):
-        self.book.renderLrf(file)
-    
-    def renderLrs(self, file):
-        self.book.renderLrs(file)
-        
 def option_parser():
     from optparse import OptionParser
     parser = OptionParser(usage='%prog [options] file.lrs', 
                           version=__appname__+ ' ' + __version__, 
-                          epilog='Created by Roger Critchlow')
+                          epilog='Created by '+__author__)
     parser.add_option('-o', '--output', default=None, help='Path to output file')
     parser.add_option('--verbose', default=False, action='store_true',
                       help='Verbose processing')
@@ -1017,9 +272,15 @@ def option_parser():
                       help='Convert LRS to LRS, useful for debugging.')
     return parser
 
-def main(args=sys.argv):
+
+def main(args=sys.argv, logger=None):
     parser = option_parser()
     opts, args = parser.parse_args(args)
+    if logger is None:
+        level = logging.DEBUG if opts.verbose else logging.INFO
+        logger = logging.getLogger('lrs2lrf')
+        setup_cli_handlers(logger, level)
+    
     if len(args) != 2:
         parser.print_help()
         return 1
@@ -1030,15 +291,14 @@ def main(args=sys.argv):
     if opts.verbose:
         import warnings
         warnings.defaultaction = 'error'
-        
-    converter =  LrsParser(args[1])
-    converter.process_file()
-    if opts.lrs:
-        converter.renderLrs(opts.output)
-    else:
-        converter.renderLrf(opts.output)
-
+    
+    logger.info('Parsing LRS file...')
+    converter =  LrsParser(open(args[1], 'rb'), logger)
+    logger.info('Writing to output file...')
+    converter.render(opts.output, to_lrs=opts.lrs)
+    logger.info('Output written to '+opts.output)
     return 0
 
+
 if __name__ == '__main__':
-    sys.exit(main())
+    sys.exit(main())
\ No newline at end of file
diff --git a/src/libprs500/ebooks/lrf/objects.py b/src/libprs500/ebooks/lrf/objects.py
index 25dc9e8e3c..e998c55179 100644
--- a/src/libprs500/ebooks/lrf/objects.py
+++ b/src/libprs500/ebooks/lrf/objects.py
@@ -601,7 +601,7 @@ class Text(LRFStream):
             s = u'<%s '%(self.name,)
             for name, val in self.attrs.items():
                 s += '%s="%s" '%(name, val)
-            return s.rstrip() + (u' />' if self.self_closing else u'>') + (u'\n' if self.name in ('P', 'CR') else u'')
+            return s.rstrip() + (u' />' if self.self_closing else u'>')
         
     class Span(TextTag):
         pass
@@ -760,8 +760,7 @@ class Text(LRFStream):
                 s += c
             elif c is None:
                 p = open_containers.pop()
-                nl = u'\n' if p.name == 'P' else u''
-                s += nl + u'</%s>'%(p.name,) + nl 
+                s += u'</%s>'%(p.name,) 
             else:
                 s += unicode(c)
                 if not c.self_closing: 
diff --git a/src/libprs500/ebooks/lrf/pylrs/pylrf.py b/src/libprs500/ebooks/lrf/pylrs/pylrf.py
index 58418db3c3..8cab70cbc3 100644
--- a/src/libprs500/ebooks/lrf/pylrs/pylrf.py
+++ b/src/libprs500/ebooks/lrf/pylrs/pylrf.py
@@ -81,7 +81,7 @@ def writeWord(f, word):
     f.write(struct.pack("<H", int(word)))
 
 def writeSignedWord(f, sword):
-    f.write(struct.pack("<h", int(sword)))
+    f.write(struct.pack("<h", int(float(sword))))
 
 def writeWords(f, *words):
     f.write(struct.pack("<%dH" % len(words), *words))
diff --git a/src/libprs500/ebooks/lrf/pylrs/pylrs.py b/src/libprs500/ebooks/lrf/pylrs/pylrs.py
index 66e2258928..adc8855a0f 100644
--- a/src/libprs500/ebooks/lrf/pylrs/pylrs.py
+++ b/src/libprs500/ebooks/lrf/pylrs/pylrs.py
@@ -396,8 +396,8 @@ class Book(Delegator):
         booksetting=BookSetting()
         Override the default BookSetting.
 
-        setdefault=SetDefault()
-        Override the defalut SetDefault.
+        setdefault=StyleDefault()
+        Override the default SetDefault.
         
         There are several other settings -- see the BookInfo class for more.       
     """
@@ -434,9 +434,12 @@ class Book(Delegator):
         self.defaultTextStyle = textStyle
         self.defaultBlockStyle = blockStyle
         LrsObject.nextObjId += 1
-
+        
+        styledefault = StyleDefault()
+        if settings.has_key('setdefault'):
+            styledefault = settings.pop('setdefault')
         Delegator.__init__(self, [BookInformation(), Main(),
-            Template(), Style(), Solos(), Objects()])        
+            Template(), Style(styledefault), Solos(), Objects()])        
 
         self.sourceencoding = None
         
@@ -606,10 +609,10 @@ class Book(Delegator):
                     span.attrs['baselineskip'] = rescale(span.attrs['baselineskip'])
                 
     
-    def renderLrs(self, lrsFile):
+    def renderLrs(self, lrsFile, encoding="UTF-8"):
         if isinstance(lrsFile, basestring): 
-            lrsFile = codecs.open(lrsFile, "wb", encoding="utf-16")
-        self.render(lrsFile)
+            lrsFile = codecs.open(lrsFile, "wb", encoding=encoding)
+        self.render(lrsFile, outputEncodingName=encoding)
         lrsFile.close()
 
 
@@ -634,7 +637,7 @@ class Book(Delegator):
         return root
 
 
-    def render(self, f):
+    def render(self, f, outputEncodingName='UTF-8'):
         """ Write the book as an LRS to file f. """
 
         self.appendReferencedObjects(self)
@@ -649,7 +652,8 @@ class Book(Delegator):
 
         writer = ElementWriter(root, header=True,
                                sourceEncoding=self.sourceencoding,
-                               spaceBeforeClose=False)
+                               spaceBeforeClose=False,
+                               outputEncodingName=outputEncodingName)
         writer.write(f)
         
 
@@ -1010,12 +1014,33 @@ class Template(object):
         # does nothing
         pass
 
+class StyleDefault(LrsAttributes):
+    """
+        Supply some defaults for all TextBlocks.
+        The legal values are a subset of what is allowed on a
+        TextBlock -- ruby, emphasis, and waitprop settings.
+    """
+    defaults = dict(rubyalign="start", rubyadjust="none", 
+                rubyoverhang="none", empdotsposition="before",
+                empdotsfontname="Dutch801 Rm BT Roman",
+                empdotscode="0x002e", emplineposition="after",
+                emplinetype = "solid", setwaitprop="noreplay")
+
+    alsoAllow = ["refempdotsfont", "rubyAlignAndAdjust"]
+
+    def __init__(self, **settings):       
+        LrsAttributes.__init__(self, self.defaults,
+                alsoAllow=self.alsoAllow, **settings)
+        
+        
+    def toElement(self, se):
+        return Element("SetDefault", self.attrs)
 
 
 class Style(LrsContainer, Delegator):
-    def __init__(self):
+    def __init__(self, styledefault=StyleDefault()):
         LrsContainer.__init__(self, [PageStyle, TextStyle, BlockStyle])
-        Delegator.__init__(self, [BookStyle()])
+        Delegator.__init__(self, [BookStyle(styledefault=styledefault)])
         self.bookStyle = self.delegates[0]
         self.appendPageStyle = self.appendTextStyle = \
                 self.appendBlockStyle = self.append
@@ -1071,10 +1096,10 @@ class Style(LrsContainer, Delegator):
 
 
 class BookStyle(LrsObject, LrsContainer):
-    def __init__(self):
+    def __init__(self, styledefault=StyleDefault()):
         LrsObject.__init__(self, assignId=True)
         LrsContainer.__init__(self, [Font])
-        self.styledefault = StyleDefault()
+        self.styledefault = styledefault
         self.booksetting = BookSetting()
         self.appendFont = self.append
         
@@ -1119,27 +1144,6 @@ class BookStyle(LrsObject, LrsContainer):
     
     
  
-class StyleDefault(LrsAttributes):
-    """
-        Supply some defaults for all TextBlocks.
-        The legal values are a subset of what is allowed on a
-        TextBlock -- ruby, emphasis, and waitprop settings.
-    """
-    defaults = dict(rubyalign="start", rubyadjust="none", 
-                rubyoverhang="none", empdotsposition="before",
-                empdotsfontname="Dutch801 Rm BT Roman",
-                empdotscode="0x002e", emplineposition="after",
-                emplinetype = "solid", setwaitprop="noreplay")
-
-    alsoAllow = ["refempdotsfont", "rubyAlignAndAdjust"]
-
-    def __init__(self, **settings):       
-        LrsAttributes.__init__(self, self.defaults,
-                alsoAllow=self.alsoAllow, **settings)
-        
-        
-    def toElement(self, se):
-        return Element("SetDefault", self.attrs)
     
     
 
@@ -1226,7 +1230,7 @@ class TextStyle(LrsStyle):
     """
     baseDefaults = dict(
             columnsep="0", charspace="0",
-            textlinewidth="10", align="head", linecolor="0x00000000",
+            textlinewidth="2", align="head", linecolor="0x00000000",
             column="1", fontsize="100", fontwidth="-10", fontescapement="0",
             fontorientation="0", fontweight="400",
             fontfacename="Dutch801 Rm BT Roman",
@@ -2251,7 +2255,9 @@ class HeaderOrFooter(LrsObject, LrsContainer, LrsAttributes):
         LrsContainer.__init__(self, [PutObj])
         LrsAttributes.__init__(self, self.defaults, **settings)
 
-
+    def put_object(self, obj, x1, y1):
+        self.append(PutObj(obj, x1, y1))
+        
     def PutObj(self, *args, **kwargs):
         p = PutObj(*args, **kwargs)
         self.append(p)
@@ -2468,7 +2474,7 @@ class ImageBlock(LrsObject, LrsContainer, LrsAttributes):
     """ Create an image on a page. """
     # TODO: allow other block attributes
 
-    defaults = dict(blockwidth="600", blockheight="800") 
+    defaults = BlockStyle.baseDefaults.copy() 
 
     def __init__(self, refstream, x0="0", y0="0", x1="600", y1="800", 
                        xsize="600", ysize="800",  
diff --git a/src/libprs500/ebooks/lrf/web/profiles/__init__.py b/src/libprs500/ebooks/lrf/web/profiles/__init__.py
index c5b7104ba0..6eb3e49c45 100644
--- a/src/libprs500/ebooks/lrf/web/profiles/__init__.py
+++ b/src/libprs500/ebooks/lrf/web/profiles/__init__.py
@@ -19,7 +19,7 @@ import tempfile, time, calendar, re, operator
 from htmlentitydefs import name2codepoint
 
 from libprs500 import __appname__, iswindows, browser
-from libprs500.ebooks.BeautifulSoup import BeautifulStoneSoup
+from libprs500.ebooks.BeautifulSoup import BeautifulStoneSoup, NavigableString, CData, Tag
 
 
 class DefaultProfile(object):
@@ -55,6 +55,7 @@ class DefaultProfile(object):
     # See the built-in profiles for examples of these settings.
     
     feeds = []
+    CDATA_PAT = re.compile(r'<\!\[CDATA\[(.*?)\]\]>', re.DOTALL)
 
     def get_feeds(self):
         '''
@@ -68,7 +69,7 @@ class DefaultProfile(object):
     @classmethod
     def print_version(cls, url):
         '''
-        Takea a URL pointing to an article and returns the URL pointing to the
+        Take a URL pointing to an article and returns the URL pointing to the
         print version of the article.
         '''
         return url
@@ -157,6 +158,28 @@ class DefaultProfile(object):
         return index
 
     
+    @classmethod
+    def tag_to_string(cls, tag, use_alt=True):
+        '''
+        Convenience method to take a BeautifulSoup Tag and extract the text from it
+        recursively, including any CDATA sections and alt tag attributes.
+        @param use_alt: If True try to use the alt attribute for tags that don't have any textual content
+        @return: A unicode (possibly empty) object
+        '''
+        if not tag:
+            return ''
+        strings = []
+        for item in tag.contents:
+            if isinstance(item, (NavigableString, CData)):
+                strings.append(item.string)
+            elif isinstance(item, Tag):
+                res = cls.tag_to_string(item)
+                if res:
+                    strings.append(res)
+                elif use_alt and item.has_key('alt'):
+                    strings.append(item['alt'])
+        return u''.join(strings) 
+    
     def parse_feeds(self, require_url=True):
         '''
         Create list of articles from a list of feeds.
@@ -195,7 +218,7 @@ class DefaultProfile(object):
                         if not pubdate or not pubdate.string:
                             self.logger.debug('Skipping article as it does not have publication date')
                             continue
-                        pubdate = pubdate.string
+                        pubdate = self.tag_to_string(pubdate)
                         pubdate = pubdate.replace('+0000', 'GMT')
                     for element in self.url_search_order:
                         url = item.find(element)
@@ -205,7 +228,7 @@ class DefaultProfile(object):
                     if require_url and (not url or not url.string):
                         self.logger.debug('Skipping article as it does not have a link url')
                         continue
-                    url = url.string if (url and url.string) else ''
+                    url = self.tag_to_string(url)
                     
                     content = item.find('content:encoded')
                     if not content:
@@ -221,7 +244,7 @@ class DefaultProfile(object):
                         self.logger.debug('Skipping %s as could not find URL for print version. Error:\n%s'%(url, err))
                         continue
                     d = { 
-                        'title'    : item.find('title').string,                 
+                        'title'    : self.tag_to_string(item.find('title')),                 
                         'url'      : purl,
                         'timestamp': self.strptime(pubdate) if self.use_pubdate else time.time(),
                         'date'     : pubdate if self.use_pubdate else time.ctime(),
@@ -263,7 +286,7 @@ class DefaultProfile(object):
     @classmethod
     def process_html_description(cls, tag, strip_links=True):
         src = '\n'.join(tag.contents)
-        match = re.match(r'<\!\[CDATA\[(.*)\]\]>', src.lstrip())
+        match = cls.CDATA_PAT.match(src.lstrip())
         if match:
             src = match.group(1)
         else:
diff --git a/src/libprs500/ebooks/lrf/web/profiles/wsj.py b/src/libprs500/ebooks/lrf/web/profiles/wsj.py
index 2f99ccc984..244c95629b 100644
--- a/src/libprs500/ebooks/lrf/web/profiles/wsj.py
+++ b/src/libprs500/ebooks/lrf/web/profiles/wsj.py
@@ -17,9 +17,7 @@ class WallStreetJournal(DefaultProfile):
         needs_subscription = True 
         max_articles_per_feed = 10
         timefmt  = ' [%a, %b %d, %Y]' 
-        html_description = True 
-        no_stylesheets = False
-        html2lrf_options = [('--ignore-tables')]
+        html2lrf_options = ['--ignore-tables', '--base-font-size=5']
 
         ## Don't grab articles more than 7 days old 
         oldest_article = 7