[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [DFRI-listan] Fwd: Perl, regexps and dreamscraping (DebianParl)



On 05/08/2013 10:59 PM, Linus Nordberg wrote:
> För en programmerare ter det sig enormt förbluffande


Varje hiss i Europaparlamentet har 4 knappsatser.

Sug ett tag på den.

Om nån sett en hiss med fler än två vill jag jättegärna veta det.

"Förbluffande" är ett rätt bra ord! Det kanske inte uppmanar till direkt
handling, men nästan :-)


> att det inte finns bra verktyg för er som arbetar med stora, nästan identiska textmassor, där en stor del av grejen är att förstå skillnaderna mellan versioner.


Riktigt bra OCR och plagieringsdetektektion finns vad jag förstår inte
som fri programvara än. Det är trist.


>
> Om ert jobb med att läsa och producera förändringsförslag ("amendments") ens liknar lite grann det som jag har fått för mig så kommer det här som ni har tagit fram nu att revolutionera ert arbete.

Här kommer en till tråkig reality check: Även om man kan tycka (av goda
skäl, eftersom det finns folk som jag som har lön och så vidare) att det
skulle vara "ert jobb" att "läsa och producera förändringsförslag" med
vettiga verktyg så är det inte så  det funkar. Tyvärr.

Det är bara om allmänheten, dvs folk på den här listan, frågar vad
MEParna, Rådet och Kommissionen vad dom håller på med som det inte blir
fyra knappsatser i varje paragraf.

Så jag hoppas snarare att diffmaskinen ska revolutionera arbetet med att
hålla koll på just precis det.

"Storverk" som Martin just sa :-)

//Erik



>
>
> Martin Millnert <martin@xxxxxxxxxxx> wrote
> Wed, 8 May 2013 22:33:19 +0200:
>
> | Skitkoolt erik. Detta (och mer) kan ju leda tillstorverk :)
> | 
> | /M
> | 
> | On 8 maj 2013, at 18:28, Erik Josefsson <erik.hjalmar.josefsson@xxxxxxxxx> wrote:
> | 
> | > Det här kanske är lite intressant för listan också. Jonas har just kodat (se nedan) så att det går att läsa diffar mellan förslaget från rådet och kommissionens ursprungliga förslag. Här är ett delresultat:
> | > http://erikjosefsson.eu/sites/default/files/consent.html> Nu råkade det bli en diff om consent som exempel. Hoppas kunna göra mera/flera imorgon.
> | > 
> | > //Erik
> | > 
> | > 
> | > -------- Original Message --------
> | > Subject:	Perl, regexps and dreamscraping (DebianParl)
> | > Date:	Wed, 8 May 2013 18:06:22 +0200
> | > From:	JOSEFSSON Erik <erik.josefsson@xxxxxxxxxxxxxxxxxx>
> | > To:	<epfsug@xxxxxxxxx>
> | > 
> | > Dear all,
> | > 
> | > After years of serious mediawiki abuse, I have been saved by regexps, perl poetry and sprinkles of that feeling you have just before you wake up with a brilliant idea.
> | > 
> | > May I present the command line:
> | > ehj@hedgehog:~/Documents/epfsug/diff$ localworddiff 3-rec-004.mdwn 4-rec-005.mdwn consent.html
> | > and its output:
> | > http://erikjosefsson.eu/sites/default/files/consent.html> The file "consent.html" above is a partial diff between a Council leak from statewatch (which I think was published yesterday?):
> | > http://www.statewatch.org/news/2013/may/eu-coe-data-protection-8825-13.pdf> and the Commission proposal:
> | > http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:52012PC0011:EN:PDF> (I used to do such by hand in mediawiki)
> | > 
> | > 
> | > What it's about?
> | > 
> | > Well... its legislation for .5 bn citizens, so I think that perl code is a candidate for the meta package "parl-tools" that I hope will be a part of the Debian Pure Blend project:
> | > https://wiki.debian.org/DebianParl> which is hereby announced :-)
> | > 
> | > 
> | > Just to be clear, I did not write any perl at all. My contribution to the above progress has been making lots and lots of regexp mistakes and asking stupid stupid questions.
> | > 
> | > Jonas made the rest.
> | > 
> | > Thank you Jonas.
> | > 
> | > //Erik
> | > 
> | > 
> | > -- 
> | > Erik Josefsson
> | > Advisor on Internet Policies
> | > Greens/EFA Group
> | > GSM: +32484082063
> | > BXL: PHS 04C075 TEL: +3222832667
> | > SBG: WIC M03005 TEL: +33388173776
> | > 
> | > 
>
>