Frieze Magazine by Kabonix

2025-08-11 09:13:57 -04:00 · 2025-04-25 22:13:02 +05:30 · 2025-04-25 22:13:02 +05:30 · 27c5a12ed4
commit 27c5a12ed4
parent 6155d07b1d
1 changed files with 234 additions and 0 deletions
--- a/recipes/frieze.recipe
+++ b/recipes/frieze.recipe
@ -0,0 +1,234 @@
+#!/usr/bin/env python
+'''
+frieze.com - Magazine d'art contemporain
+'''
+import re
+from datetime import datetime
+from zoneinfo import ZoneInfo
+
+from calibre.web.feeds.news import BasicNewsRecipe
+
+
+class FriezeMagazineRecipe(BasicNewsRecipe):
+    title = 'Frieze Magazine'
+    __author__ = 'Kabonix'
+    description = "Magazine international d'art contemporain"
+    language = 'en'
+    oldest_article = 60
+    max_articles_per_feed = 50
+    auto_cleanup = False
+    encoding = 'utf-8'
+    no_stylesheets = True
+    remove_javascript = True
+    scale_news_images_to_device = True
+
+    base_url = 'https://www.frieze.com'
+
+    keep_only_tags = [
+        {'class': 'article-header-container'},
+        {'class': 'article-header-title'},
+        {'class': 'article-header-headline'},
+        {'class': 'article-header-author'},
+        {'class': 'body-text'},
+        {'class': 'body-field'}
+    ]
+
+    remove_tags = [
+        {'class': 'social-share-container'},
+        {'class': 'share-buttons'},
+        {'class': 'article-header-social-responsive'},
+        {'class': 'newsletter-subscribe-container'},
+        {'class': 'suggested-articles-container'},
+        {'class': 'article-footer-container'},
+        {'class': 'ad-surround'},
+        {'id': re.compile(r'ad-.*')},
+        {'class': 'hidden'}
+    ]
+
+    extra_css = '''
+        img { max-width: 100%; height: auto; display: block; margin: 1em auto; }
+        h1 { font-size: 2em; margin: 1em 0; font-weight: bold; }
+        h2 { font-size: 1.5em; margin: 1em 0; font-weight: bold; }
+        p { font-size: 1.1em; line-height: 1.6; margin-bottom: 1em; }
+        figcaption { font-style: italic; font-size: 0.9em; color: #555; text-align: center; }
+        em { font-style: italic; }
+        .article-header-title { margin-bottom: 0.5em; }
+        .article-header-headline { margin-bottom: 1.5em; }
+        .article-header-author { font-size: 0.9em; margin-bottom: 2em; color: #555; }
+    '''
+
+    def parse_index(self):
+        magazine_url = self.base_url + '/magazines/frieze-magazine'
+        soup = self.index_to_soup(magazine_url)
+
+        # Recherche du dernier numéro de façon plus robuste
+        # Essayer plusieurs sélecteurs possibles pour trouver la liste des numéros
+        issue_containers = soup.find_all('div', {'class': re.compile(r'teaser-search-col')})
+
+        # S'il n'y a pas de conteneurs trouvés avec la classe spécifique, cherchons plus largement
+        if not issue_containers:
+            self.log.warning('Recherche élargie des numéros du magazine')
+            issue_containers = soup.find_all('div', {'class': re.compile(r'teaser')})
+
+        # Trouvons le premier numéro de magazine (le plus récent) parmi les conteneurs
+        latest_issue = None
+        for container in issue_containers:
+            # Vérifie si c'est un conteneur de magazine (pas un article)
+            if container.find('a', href=re.compile(r'/magazines/|/issues/')):
+                latest_issue = container
+                break
+
+        if not latest_issue:
+            self.log.warning('Aucun numéro spécifique trouvé, utilisation de la page principale')
+            issue_url = magazine_url
+        else:
+            issue_link = latest_issue.find('a')
+            if issue_link and issue_link.get('href'):
+                issue_url = self.base_url + issue_link['href'] if issue_link['href'].startswith('/') else issue_link['href']
+                self.log.info(f'Dernier numéro trouvé: {issue_url}')
+            else:
+                issue_url = magazine_url
+                self.log.warning('Lien vers le numéro non trouvé')
+
+        self.log.info(f'Accès au numéro: {issue_url}')
+        issue_soup = self.index_to_soup(issue_url)
+
+        # Extraction plus robuste de l'image de couverture
+        # Essayons plusieurs sélecteurs possibles
+        cover_image = None
+
+        # Méthode 1: Chercher dans la section d'en-tête du magazine
+        cover_div = issue_soup.find('div', class_=re.compile(r'magazine-header-image|issue-header-image'))
+        if cover_div:
+            img_tag = cover_div.find('img')
+            if img_tag and img_tag.get('src'):
+                cover_image = img_tag['src']
+
+        # Méthode 2: Chercher dans la section principale
+        if not cover_image:
+            main_section = issue_soup.find('section', class_=re.compile(r'main|content'))
+            if main_section:
+                img_tag = main_section.find('img')
+                if img_tag and img_tag.get('src'):
+                    cover_image = img_tag['src']
+
+        # Méthode 3: Recherche générale d'une grande image en haut de la page
+        if not cover_image:
+            for img in issue_soup.find_all('img', src=True)[:5]:  # Limiter aux 5 premières images
+                if 'cover' in img.get('src', '').lower() or 'header' in img.get('src', '').lower():
+                    cover_image = img['src']
+                    break
+
+        if cover_image:
+            self.cover_url = cover_image if cover_image.startswith('http') else self.base_url + cover_image
+            self.log.info(f'Couverture trouvée: {self.cover_url}')
+        else:
+            self.log.warning("Pas d'image de couverture trouvée")
+
+        # Extraction du titre du numéro
+        issue_title = None
+        for heading in issue_soup.find_all(['h1', 'h2']):
+            if 'issue' in heading.text.lower() or 'magazine' in heading.text.lower():
+                issue_title = heading.text.strip()
+                break
+
+        if not issue_title:
+            # Recherche plus générale
+            for heading in issue_soup.find_all(['h1', 'h2'])[:3]:  # Limiter aux 3 premiers titres
+                issue_title = heading.text.strip()
+                if issue_title:
+                    break
+
+        if not issue_title:
+            issue_title = 'Frieze Magazine - Dernier numéro'
+
+        # Extraction des articles
+        articles = []
+
+        # Recherche différents modèles de teasers d'articles
+        article_containers = issue_soup.find_all('div', {'class': re.compile(r'teaser-content|article-teaser|article-item')})
+
+        if not article_containers:
+            # Recherche plus large si les conteneurs spécifiques ne sont pas trouvés
+            article_containers = issue_soup.find_all('div', {'class': re.compile(r'teaser|article')})
+
+        for container in article_containers:
+            article_link = container.find('a')
+            if not article_link or not article_link.get('href'):
+                continue
+
+            article_url = article_link['href']
+            if article_url.startswith('/'):
+                article_url = self.base_url + article_url
+
+            # Extraction du titre avec différentes classes possibles
+            title_element = container.find(['div', 'h2', 'h3', 'h4'], {'class': re.compile(r'title|heading')})
+            title = title_element.text.strip() if title_element else 'Sans titre'
+
+            # Extraction de la description
+            desc_element = container.find(['div', 'p'], {'class': re.compile(r'deck|description|summary|excerpt')})
+            description = desc_element.text.strip() if desc_element else ''
+
+            # Extraction de l'auteur
+            author_element = container.find(['div', 'span'], {'class': re.compile(r'author|byline')})
+            if author_element:
+                author_links = author_element.find_all('a')
+                if author_links:
+                    author = ', '.join([a.text.strip() for a in author_links])
+                else:
+                    author = author_element.text.strip()
+            else:
+                author = ''
+
+            # Vérification que c'est bien un article et pas un lien interne
+            if '/article/' in article_url or '/feature/' in article_url or '/review/' in article_url:
+                articles.append({
+                    'title': title,
+                    'url': article_url,
+                    'description': description,
+                    'author': author,
+                    'date': datetime.now(ZoneInfo('Europe/Paris')).strftime('%Y-%m-%d')
+                })
+                self.log.debug(f'Article trouvé: {title} - {article_url}')
+
+        self.log.info(f"Nombre d'articles trouvés: {len(articles)}")
+        return [(issue_title, articles)]
+
+    def get_cover_url(self):
+        return getattr(self, 'cover_url', None)
+
+    def preprocess_html(self, soup):
+        # Nettoyage des éléments superflus
+        for element in soup.find_all(class_=lambda c: c and ('share' in c or 'ad-' in c)):
+            element.decompose()
+
+        for tag in soup.find_all(['script', 'style']):
+            tag.decompose()
+
+        # Optimisation des images
+        for img in soup.find_all('img'):
+            # Sauvegarde des attributs importants seulement
+            src = img.get('src') or img.get('data-src') or img.get('data-lazy-src')
+            alt = img.get('alt', '')
+
+            # Réinitialiser tous les attributs
+            img.attrs = {}
+
+            # Réappliquer seulement src et alt
+            if src:
+                img['src'] = src
+            if alt:
+                img['alt'] = alt
+
+        # Formatage des métadonnées
+        for class_name, style in [
+            ('article-header-title', 'font-size: 2em; font-weight: bold;'),
+            ('article-header-headline', 'font-style: italic;'),
+            ('article-header-author', 'color: #555;')
+        ]:
+            element = soup.find('div', class_=class_name)
+            if element:
+                element.attrs.clear()
+                element['style'] = style
+
+        return soup