calibre/recipes/kirkusreviews.recipe

from urllib.parse import urljoin

from calibre.web.feeds.news import BasicNewsRecipe


class KirkusReviews(BasicNewsRecipe):
    title = 'Kirkus Reviews'
    description = ('Kirkus Reviews is an American book review magazine founded in 1933 by Virginia Kirkus.'
                   ' The magazine is headquartered in New York City. Released twice monthly on the 1st/15th.')
    language = 'en'
    __author__ = 'ping'
    publication_type = 'magazine'
    masthead_url = (
        'https://d1fd687oe6a92y.cloudfront.net/img/kir_images/logo/kirkus-nav-logo.svg'
    )
    encoding = 'utf-8'
    remove_javascript = True
    no_stylesheets = True
    auto_cleanup = False
    ignore_duplicate_articles = {'url'}
    compress_news_images = True
    compress_news_images_auto_size = 6
    max_articles_per_feed = 99

    keep_only_tags = [
        dict(
            class_=[
                'article-author',
                'article-author-img-start',
                'article-author-description-start',
                'single-review',
            ]
        )
    ]
    remove_tags = [
        dict(
            class_=[
                'sidebar-content',
                'article-social-share-desktop-first',
                'article-social-share-desktop-pagination',
                'article-social-share-mobile',
                'share-review-text',
                'like-dislike-article',
                'rate-this-book-text',
                'input-group',
                'user-comments',
                'show-all-response-text',
                'button-row',
                'hide-on-mobile',
                'related-article',
                'breadcrumb-row',
                'shop-now-dropdown',
            ]
        )
    ]
    remove_tags_after = [dict(class_='single-review')]

    extra_css = '''
    .image-container img { max-width: 100%; height: auto; margin-bottom: 0.2rem; }
    .photo-caption { font-size: 0.8rem; margin-bottom: 0.5rem; display: block; }
    .book-review-img .image-container { text-align: center; }
    .book-rating-module .description-title { font-size: 1.25rem; margin-left: 0; text-align: center; }
    '''

    def preprocess_html(self, soup):
        h1 = soup.find(class_='article-title')
        book_cover = soup.find('ul', class_='book-review-img')
        if book_cover:
            for li in book_cover.find_all('li'):
                li.name = 'div'
            book_cover.name = 'div'
            if h1:
                book_cover.insert_before(h1.extract())
        return soup

    def parse_index(self):
        issue_url = 'https://www.kirkusreviews.com/magazine/current/'
        soup = self.index_to_soup(issue_url)
        issue = soup.find(name='article', class_='issue-container')
        cover_img = issue.select('.issue-header .cover-image img')
        if cover_img:
            self.cover_url = cover_img[0]['src']

        h1 = issue.find('h1')
        if h1:
            self.timefmt = f' [{self.tag_to_string(h1)}]'  # edition

        articles = {}
        for book_ele in soup.find_all(name='div', class_='issue-featured-book'):
            link = book_ele.find('a')
            if not link:
                continue
            section = self.tag_to_string(book_ele.find('h3')).upper()
            articles.setdefault(section, []).append(
                {'url': urljoin(issue_url, link['href']), 'title': link['title']}
            )
        for post_ele in issue.select('div.issue-more-posts ul li div.lead-text'):
            link = post_ele.find('a')
            if not link:
                continue
            section = self.tag_to_string(post_ele.find(class_='lead-text-type')).upper()
            articles.setdefault(section, []).append(
                {
                    'url': urljoin(issue_url, link['href']),
                    'title': self.tag_to_string(link),
                }
            )
        for section_ele in issue.select('section.reviews-section'):
            section_articles = []
            for review in section_ele.select('ul li.starred'):
                link = review.select('h4 a')
                if not link:
                    continue
                description = review.find('p')
                section_articles.append(
                    {
                        'url': urljoin(issue_url, link[0]['href']),
                        'title': self.tag_to_string(link[0]),
                        'description': ''
                        if not description
                        else self.tag_to_string(description),
                    }
                )
            if not section_articles:
                continue
            section = self.tag_to_string(section_ele.find('h3')).upper()
            if section not in articles:
                articles[section] = []
            articles.setdefault(section, []).extend(section_articles)

        return articles.items()