Get books: Fix Gutenberg store and improvements to chitanka.info and e-knigni.net

2025-12-22 21:07:20 -05:00 · 2011-07-30 19:28:43 -06:00 · 2011-07-30 19:28:43 -06:00 · e53539285a
commit e53539285a
parent 6401dafec5 4d03672987
3 changed files with 78 additions and 46 deletions
--- a/src/calibre/gui2/store/stores/chitanka_plugin.py
+++ b/src/calibre/gui2/store/stores/chitanka_plugin.py
@ -6,7 +6,8 @@ __license__ = 'GPL 3'
 __copyright__ = '2011, Alex Stanev <alex@stanev.org>'
 __docformat__ = 'restructuredtext en'

-import urllib
+import re
+import urllib2
 from contextlib import closing

 from lxml import html
@ -39,54 +40,24 @@ class ChitankaStore(BasicStoreConfig, StorePlugin):
            d.exec_()

    def search(self, query, max_results=10, timeout=60):
+        # check for cyrilic symbols before performing search
+        uquery = unicode(query.strip(), 'utf-8')
+        reObj = re.search(u'^[а-яА-Я\\d]{4,}[а-яА-Я\\d\\s]*$', uquery)
+        if not reObj:
+            return

        base_url = 'http://chitanka.info'
-        url = base_url + '/search?q=' +  urllib.quote(query)
+        url = base_url + '/search?q=' +  urllib2.quote(query)
        counter = max_results

        # search for book title
        br = browser()
-        with closing(br.open(url, timeout=timeout)) as f:
-            f = unicode(f.read(), 'utf-8')
-            doc = html.fromstring(f)
-
-            for data in doc.xpath('//ul[@class="superlist booklist"]/li'):
-                if counter <= 0:
-                    break
-
-                id = ''.join(data.xpath('.//a[@class="booklink"]/@href')).strip()
-                if not id:
-                    continue
-
-                counter -= 1
-
-                s = SearchResult()
-                s.cover_url = ''.join(data.xpath('.//a[@class="booklink"]/img/@src')).strip()
-                s.title = ''.join(data.xpath('.//a[@class="booklink"]/i/text()')).strip()
-                s.author = ''.join(data.xpath('.//span[@class="bookauthor"]/a/text()')).strip()
-                s.detail_item = id
-                s.drm = SearchResult.DRM_UNLOCKED
-                s.downloads['FB2'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-fb2"]/@href')).strip().replace('.zip', '')
-                s.downloads['EPUB'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-epub"]/@href')).strip().replace('.zip', '')
-                s.downloads['TXT'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-txt"]/@href')).strip().replace('.zip', '')
-                s.formats = 'FB2, EPUB, TXT, SFB'
-                yield s
-
-        # search for author names
-        for data in doc.xpath('//ul[@class="superlist"][1]/li'):
-            author_url = ''.join(data.xpath('.//a[contains(@href,"/person/")]/@href'))
-            if counter <= 0:
-                break
-
-            br2 = browser()
-            with closing(br2.open(base_url + author_url, timeout=timeout)) as f:
-                if counter <= 0:
-                    break
+        try:
+            with closing(br.open(url, timeout=timeout)) as f:
                f = unicode(f.read(), 'utf-8')
-                doc2 = html.fromstring(f)
+                doc = html.fromstring(f)

-                # search for book title
-                for data in doc2.xpath('//ul[@class="superlist booklist"]/li'):
+                for data in doc.xpath('//ul[@class="superlist booklist"]/li'):
                    if counter <= 0:
                        break

@ -107,3 +78,51 @@ class ChitankaStore(BasicStoreConfig, StorePlugin):
                    s.downloads['TXT'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-txt"]/@href')).strip().replace('.zip', '')
                    s.formats = 'FB2, EPUB, TXT, SFB'
                    yield s
+        except urllib2.HTTPError, e:
+            if e.code == 404:
+                return
+            else:
+                raise
+
+        # search for author names
+        for data in doc.xpath('//ul[@class="superlist"][1]/li/dl/dt'):
+            author_url = ''.join(data.xpath('.//a[contains(@href,"/person/")]/@href'))
+            if author_url == '':
+                continue
+            if counter <= 0:
+                break
+
+            br2 = browser()
+            with closing(br2.open(base_url + author_url, timeout=timeout)) as f:
+                if counter <= 0:
+                    break
+                f = unicode(f.read(), 'utf-8')
+                doc2 = html.fromstring(f)
+
+                # search for book title
+                for data in doc2.xpath('//ul[@class="superlist booklist"]/li'):
+                    if counter <= 0:
+                        break
+
+                    id = ''.join(data.xpath('.//a[@class="booklink"]/@href')).strip()
+                    if not id:
+                        continue
+
+                    title = ''.join(data.xpath('.//a[@class="booklink"]/i/text()')).strip()
+                    author = ''.join(data.xpath('.//span[@class="bookauthor"]/a/text()')).strip()
+                    if title.lower().find(query.lower()) == -1 and author.lower().find(query.lower()) == -1:
+                        continue
+
+                    counter -= 1
+
+                    s = SearchResult()
+                    s.cover_url = ''.join(data.xpath('.//a[@class="booklink"]/img/@src')).strip()
+                    s.title = title
+                    s.author = author
+                    s.detail_item = id
+                    s.drm = SearchResult.DRM_UNLOCKED
+                    s.downloads['FB2'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-fb2"]/@href')).strip().replace('.zip', '')
+                    s.downloads['EPUB'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-epub"]/@href')).strip().replace('.zip', '')
+                    s.downloads['TXT'] = base_url + ''.join(data.xpath('.//a[@class="dl dl-txt"]/@href')).strip().replace('.zip', '')
+                    s.formats = 'FB2, EPUB, TXT, SFB'
+                    yield s
--- a/src/calibre/gui2/store/stores/eknigi_plugin.py
+++ b/src/calibre/gui2/store/stores/eknigi_plugin.py
@ -6,6 +6,7 @@ __license__ = 'GPL 3'
 __copyright__ = '2011, Alex Stanev <alex@stanev.org>'
 __docformat__ = 'restructuredtext en'

+import re
 import random
 import urllib2
 from contextlib import closing
@ -45,8 +46,14 @@ class eKnigiStore(BasicStoreConfig, StorePlugin):
            d.exec_()

    def search(self, query, max_results=10, timeout=60):
+        # check for cyrilic symbols before performing search
+        uquery = unicode(query.strip(), 'utf-8')
+        reObj = re.search(u'^[а-яА-Я\\d]{2,}[а-яА-Я\\d\\s]*$', uquery)
+        if not reObj:
+            return
+
        base_url = 'http://e-knigi.net'
-        url = base_url + '/virtuemart?page=shop.browse&search_category=0&search_limiter=anywhere&limitstart=0&limit=' + str(max_results) + '&keyword=' + urllib2.quote(query)
+        url = base_url + '/virtuemart?page=shop.browse&search_category=0&search_limiter=anywhere&keyword=' + urllib2.quote(query)

        br = browser()

@ -75,12 +82,18 @@ class eKnigiStore(BasicStoreConfig, StorePlugin):
                if not id:
                    continue

+                title = ''.join(data.xpath('.//a[@class="gk_vm_product_image"]/img/@title')).strip()
+                author = ''.join(data.xpath('.//div[@style="float:left;width:90%"]/b/text()')).strip().replace('Автор: ', '')
+
+                if title.lower().find(query.lower()) == -1 and author.lower().find(query.lower()) == -1:
+                    continue
+
                counter -= 1

                s = SearchResult()
                s.cover_url = ''.join(data.xpath('.//a[@class="gk_vm_product_image"]/img/@src')).strip()
-                s.title = ''.join(data.xpath('.//a[@class="gk_vm_product_image"]/img/@title')).strip()
-                s.author = ''.join(data.xpath('.//div[@style="float:left;width:90%"]/b/text()')).strip().replace('Автор: ', '')
+                s.title = title
+                s.author = author
                s.price = ''.join(data.xpath('.//span[@class="productPrice"]/text()')).strip()
                s.detail_item = base_url + id
                s.drm = SearchResult.DRM_UNLOCKED
--- a/src/calibre/gui2/store/stores/gutenberg_plugin.py
+++ b/src/calibre/gui2/store/stores/gutenberg_plugin.py
@ -45,7 +45,7 @@ class GutenbergStore(BasicStoreConfig, StorePlugin):
        counter = max_results
        with closing(br.open(url, timeout=timeout)) as f:
            doc = html.fromstring(f.read())
-            for data in doc.xpath('//ol[@class="results"]//li[contains(@class, "icon_title")]'):
+            for data in doc.xpath('//ol[@class="results"]//li[contains(@class, "icon_title") and not(contains(@class, "toplink"))]'):
                if counter <= 0:
                    break

@ -69,7 +69,7 @@ class GutenbergStore(BasicStoreConfig, StorePlugin):
                yield s

    def get_details(self, search_result, timeout):
-        url = url_slash_cleaner('http://m.gutenberg.org/' + search_result.detail_item + '.mobile')
+        url = url_slash_cleaner('http://m.gutenberg.org/' + search_result.detail_item)
        
        br = browser()
        with closing(br.open(url, timeout=timeout)) as nf: