piątek, 1 lutego 2008

Dump + grep + sed, czyli co robi nudzący się wikipedysta

A zaczęło się niewinnie:

odder@mary-anne:~$ grep -e huj plwiki.xml > grep-huj

Jako że mam obecnie ferie i okropnie się nudzę, postanowiłem – biorąc pod uwagę zwiększone zainteresowanie bluzgami na Wikipedii IRCowników z #wikipedia-pl – zrobić coś ciekawego. Na początku ze ściągniętego dumpa plwiki (tylko opisy edycji + tytuły stron) grepnąłem bluzgi – i na tym, po uprzednim posłaniu plików do Sieci, poprzestałem. Całą sytuację z tamtego czasu – a więc istnienie brzydkich, nieładnych i ogólnie fuj-okropnych plików tekstowych – opisał już prawie dokładnie 24h temu na swoim blogu Adziura.

Dzisiaj jednak, ze względu na natłok obowiązków, których nie bardzo chciało mi się wykonywać, postanowiłem udostępnić te grepy szerszej publiczności w nieco lepszym stylu. Po dokładniejszym grepowaniu, zsedowaniu wszystkiego do trochę ładniejszej postaci i dodaniu znaczników HTML udało mi się wygenerować dość fajne pliki. Po wykonaniu odpowiedniego designu i implementacji (taa ;P) w PHP zabrałem się za wysłanie wszystkiego w świat: po pewnych kłopotach, jakie towarzyszą od całkiem długiego czasu mojemu połączeniu internetowemu, wszystko jest już w Sieci.

A oto i adres. Nic szczególnego, widać, że robione na szybko, a i pewnie błędy się znajdą. Jak coś, to zgłaszać ;-)

PS. Muszę to dodać: kocham *niksy ;-)

Brak komentarzy: