@alef0: ta readability.com vypadá dobře, díky za tip (nevěděl jsem).
Jinak, souhlasím s tebou ve skepticismu k přímému html -> pdf řešení (důvody proč již padly, nebudu opakovat). Mluvíš ze zkušenosti.
Z implementačního hlediska jde jen o zajištění adekvátního vstupu a výstupu:
1. Zajistit jednoznačně určený (bez chyb parsovatelný) počáteční (meta)formát. Když se toto udělá pořádně, v následujícím kroku půjde nasadit algoritmy s minimální složitostí a chybovostí.
2. Převést na libovolný výstup, dle libosti a vhodnosti (PDF, PostScript, TeX, OfficeOpenXML, XPS, svíčková s knedlíky ...)
Ten první bod může být problematický, protože:
Současný editor článků je zlo (způsob formátování není transparentní -> způsob, jak si zajistit potenciálně nekonzistentní vstup).
+
Dukolm píše:
Dále, což je ten horší problém, se tu vyskytují články se styly v HTML atributu style což ti zvládne dost znepříjemnit život a jakou cokoliv práci s nimi. A jejich odstranění naruší obvykle strukturu článku.
Je toto pravdivé? Pokud ano, jak zasažené články převést do jednoznačné podoby?
Asi regulárními výrazy se zásobníkem ... a pokud tyto články se style tagem psali lidé, bude asi nutné jejich převody krom robustního převaděče dodatečně ručně zkontrolovat.
Mj. podotýkám, že vnitřnosti kostky jsou pro většinu z nás jen černou schránkou (jediný, kdo zná vnitřní architekturu bude zřejmě právě nedostupný Max). Nebudu tady dále vynášet žádné "chytré" závěry, byl bych za blábolícího idiota. I něco z předchozích postřehů může být dosti mimo.
@Assassin: řešíš tu převádění na výstup, a vypadá to slibně. Teď ještě ošéfovat ten vstup.
Až budeš s html>tex>pdf převaděčem hotov, podělíš se o zdrojový kód?