mirror of
https://github.com/kovidgoyal/calibre.git
synced 2025-09-29 15:31:08 -04:00
105 lines
5.4 KiB
Python
105 lines
5.4 KiB
Python
#!/usr/bin/env python
|
|
|
|
# # Przed uzyciem przeczytaj komentarz w sekcji "feeds"
|
|
|
|
__license__ = 'GPL v3'
|
|
__copyright__ = u'2010, Richard z forum.eksiazki.org'
|
|
'''pomorska.pl'''
|
|
|
|
import re
|
|
from calibre.web.feeds.news import BasicNewsRecipe
|
|
|
|
class GazetaPomorska(BasicNewsRecipe):
|
|
title = u'Gazeta Pomorska'
|
|
publisher = u'Gazeta Pomorska'
|
|
description = u'Kujawy i Pomorze - wiadomo\u015bci'
|
|
language = 'pl'
|
|
__author__ = u'Richard z forum.eksiazki.org'
|
|
# # (dziekuje t3d z forum.eksiazki.org za testy)
|
|
oldest_article = 2
|
|
max_articles_per_feed = 20
|
|
no_stylesheets = True
|
|
remove_javascript = True
|
|
preprocess_regexps = [
|
|
(re.compile(r'<a href="http://maps.google[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
|
|
(re.compile(r'[<Bb >]*Poznaj opinie[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
|
|
(re.compile(r'[<Bb >]*Przeczytaj[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
|
|
(re.compile(r'[<Bb >]*Wi.cej informacji[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
|
|
(re.compile(r'<a href[^>]*>[<Bb >]*Wideo[^<]*[</Bb >]*[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
|
|
(re.compile(r'<a href[^>]*>[<Bb >]*KLIKNIJ TUTAJ[^<]*[</Bb >]*[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: '')
|
|
]
|
|
|
|
feeds = [
|
|
# # Tutaj jest wymieniona lista kategorii jakie mozemy otrzymywac z Gazety
|
|
# # Pomorskiej, po jednej kategorii w wierszu. Jesli na poczatku danego wiersza
|
|
# # znajduje sie jeden znak "#", oznacza to ze kategoria jest zakomentowana
|
|
# # i nie bedziemy jej otrzymywac. Jesli chcemy ja otrzymywac nalezy usunac
|
|
# # znak # z jej wiersza.
|
|
# # Jesli subskrybujemy wiecej niz jedna kategorie, na koncu wiersza z kazda
|
|
# # kategoria musi sie znajdowac niezakomentowany przecinek, z wyjatkiem
|
|
# # ostatniego wiersza - ma byc bez przecinka na koncu.
|
|
# # Rekomendowane opcje wyboru kategorii:
|
|
# # 1. PomorskaRSS - wiadomosci kazdego typu, lub
|
|
# # 2. Region + wybrane miasta, lub
|
|
# # 3. Wiadomosci tematyczne.
|
|
# # Lista kategorii:
|
|
|
|
# # PomorskaRSS - wiadomosci kazdego typu, zakomentuj znakiem "#"
|
|
# # przed odkomentowaniem wiadomosci wybranego typu:
|
|
(u'PomorskaRSS', u'http://www.pomorska.pl/rss.xml')
|
|
|
|
# # wiadomosci z regionu nie przypisane do okreslonego miasta:
|
|
# (u'Region', u'http://www.pomorska.pl/region.xml'),
|
|
|
|
# # wiadomosci przypisane do miast:
|
|
# (u'Bydgoszcz', u'http://www.pomorska.pl/bydgoszcz.xml'),
|
|
# (u'Nak\u0142o', u'http://www.pomorska.pl/naklo.xml'),
|
|
# (u'Koronowo', u'http://www.pomorska.pl/koronowo.xml'),
|
|
# (u'Solec Kujawski', u'http://www.pomorska.pl/soleckujawski.xml'),
|
|
# (u'Grudzi\u0105dz', u'http://www.pomorska.pl/grudziadz.xml'),
|
|
# (u'Inowroc\u0142aw', u'http://www.pomorska.pl/inowroclaw.xml'),
|
|
# (u'Toru\u0144', u'http://www.pomorska.pl/torun.xml'),
|
|
# (u'W\u0142oc\u0142awek', u'http://www.pomorska.pl/wloclawek.xml'),
|
|
# (u'Aleksandr\u00f3w Kujawski', u'http://www.pomorska.pl/aleksandrow.xml'),
|
|
# (u'Brodnica', u'http://www.pomorska.pl/brodnica.xml'),
|
|
# (u'Che\u0142mno', u'http://www.pomorska.pl/chelmno.xml'),
|
|
# (u'Chojnice', u'http://www.pomorska.pl/chojnice.xml'),
|
|
# (u'Ciechocinek', u'http://www.pomorska.pl/ciechocinek.xml'),
|
|
# (u'Golub Dobrzy\u0144', u'http://www.pomorska.pl/golubdobrzyn.xml'),
|
|
# (u'Mogilno', u'http://www.pomorska.pl/mogilno.xml'),
|
|
# (u'Radziej\u00f3w', u'http://www.pomorska.pl/radziejow.xml'),
|
|
# (u'Rypin', u'http://www.pomorska.pl/rypin.xml'),
|
|
# (u'S\u0119p\u00f3lno', u'http://www.pomorska.pl/sepolno.xml'),
|
|
# (u'\u015awiecie', u'http://www.pomorska.pl/swiecie.xml'),
|
|
# (u'Tuchola', u'http://www.pomorska.pl/tuchola.xml'),
|
|
# (u'\u017bnin', u'http://www.pomorska.pl/znin.xml')
|
|
|
|
# # wiadomosci tematyczne (redundancja z region/miasta):
|
|
# (u'Sport', u'http://www.pomorska.pl/sport.xml'),
|
|
# (u'Zdrowie', u'http://www.pomorska.pl/zdrowie.xml'),
|
|
# (u'Auto', u'http://www.pomorska.pl/moto.xml'),
|
|
# (u'Dom', u'http://www.pomorska.pl/dom.xml'),
|
|
# (u'Reporta\u017c', u'http://www.pomorska.pl/reportaz.xml'),
|
|
# (u'Gospodarka', u'http://www.pomorska.pl/gospodarka.xml')
|
|
]
|
|
|
|
keep_only_tags = [dict(name='div', attrs={'id':'article'})]
|
|
|
|
remove_tags = [
|
|
dict(name='p', attrs={'id':'articleTags'}),
|
|
dict(name='div', attrs={'id':'articleEpaper'}),
|
|
dict(name='div', attrs={'id':'articleConnections'}),
|
|
dict(name='div', attrs={'class':'articleFacts'}),
|
|
dict(name='div', attrs={'id':'articleExternalLink'}),
|
|
dict(name='div', attrs={'id':'articleMultimedia'}),
|
|
dict(name='div', attrs={'id':'articleGalleries'}),
|
|
dict(name='div', attrs={'id':'articleAlarm'}),
|
|
dict(name='div', attrs={'id':'adholder_srodek1'}),
|
|
dict(name='div', attrs={'id':'articleVideo'}),
|
|
dict(name='a', attrs={'name':'fb_share'})]
|
|
|
|
extra_css = '''h1 { font-size: 1.4em; }
|
|
h2 { font-size: 1.0em; }'''
|
|
|
|
|