calibre/recipes/bookforummagazine.recipe

from urllib.parse import urljoin

from calibre.web.feeds.news import BasicNewsRecipe

_issue_url = ''


class BookforumMagazine(BasicNewsRecipe):
    title = 'Bookforum'
    description = (
        'Bookforum is an American book review magazine devoted to books and '
        'the discussion of literature. https://www.bookforum.com/print'
    )
    language = 'en'
    __author__ = 'ping'
    publication_type = 'magazine'
    encoding = 'utf-8'
    remove_javascript = True
    no_stylesheets = True
    auto_cleanup = False
    compress_news_images = True
    compress_news_images_auto_size = 8

    keep_only_tags = [dict(class_='blog-article')]
    remove_tags = [dict(name=['af-share-toggle', 'af-related-articles'])]

    extra_css = '''
    .blog-article__header { font-size: 1.8rem; margin-bottom: 0.4rem; }
    .blog-article__subtitle { font-size: 1.2rem; font-style: italic; margin-bottom: 1rem; }
    .blog-article__writer { font-size: 1rem; font-weight: bold; color: #444; }
    .blog-article__book-info { margin: 1rem 0; }
    .article-image-container img, .blog-article__publication-media img {
        display: block; max-width: 100%; height: auto;
    }
    .blog-article__caption { font-size: 0.8rem; display: block; margin-top: 0.2rem; }
    '''

    def preprocess_html(self, soup):
        # strip away links that's not needed
        for ele in soup.select('.blog-article__header a'):
            ele.unwrap()
        return soup

    def parse_index(self):
        soup = self.index_to_soup(
            _issue_url if _issue_url else 'https://www.bookforum.com/print'
        )
        meta_ele = soup.find('meta', property='og:title')
        if meta_ele:
            self.timefmt = f' [{meta_ele["content"]}]'

        cover_ele = soup.find('img', class_='toc-issue__cover')
        if cover_ele:
            self.cover_url = urljoin(
                'https://www.bookforum.com',
                soup.find('img', class_='toc-issue__cover')['src'],
            )

        articles = {}
        for sect_ele in soup.find_all('div', class_='toc-articles__section'):
            section_name = self.tag_to_string(
                sect_ele.find('a', class_='toc__anchor-links__link')
            )
            for article_ele in sect_ele.find_all('article'):
                title_ele = article_ele.find('h1')
                sub_title_ele = article_ele.find(class_='toc-article__subtitle')
                articles.setdefault(section_name, []).append(
                    {
                        'title': self.tag_to_string(title_ele),
                        'url': article_ele.find('a', class_='toc-article__link')[
                            'href'
                        ],
                        'description': self.tag_to_string(sub_title_ele)
                        if sub_title_ele
                        else '',
                    }
                )
        return articles.items()