Kleine Helfer: paste, join, sort, cut
Neulich bei der Userverwaltung (genauergesagt Import einer CSV Liste) eines
groesseren Systems traf ich auf den Bedarf, einer Datei mit Anmeldenamen
noch die zugehoerigen Infos zu den jeweiligen Namen aus anderen Dateien
hinzu zufuegen. Anbei ein Beispiel …
Ich habe eine Datei mit Namen …
Datei mit Format ANMELDENAME
heino@sora:~/p/lugmoe/blog_paste$ cat namen
adam
erwin
igor
otto
uriel
… und eine weitere Datei mit Raumnummern.
Datei mit Format ANMELDENAME, VOLLER NAME, RAUMNUMMER
heino@sora:~/p/lugmoe/blog_paste$ cat raum
adam,Adam Evans,44a
erwin,Erwin Derwish,33e
igor,Igor Frankenstein,11i
otto,Otto Fant,00o
siegfried,Siegfried Nibel,55s <– ist nicht bei den Anmeldenamen
uriel,Uriel Hell,666u
zorro,Zorro Gonzales,22z <– ist nicht bei den Anmeldenamen
PASTE
—–
Beide Dateien sind nach dem ersten Feld sortiert (alphabetisch).
Mit paste behandele ich die Dateien wie Spalten, die ich in einer
neuen Datei zusammen fuehren will:
heino@sora:~$ paste namen raum
adam adam,Adam Evans,44a
erwin erwin,Erwin Derwish,33e
igor igor,Igor Frankenstein,11i
otto otto,Otto Fant,00o
uriel siegfried,Siegfried Nibel,55s
uriel,Uriel Hell,666u
zorro,Zorro Gonzales,22z
Das ist schon fast zu gebrauchen, aber leider haben wir einmal eine kleine
Liste mit Leuten die mich interessieren und eine „grosse“ Liste mit allen
Mitarbeitern, aus denen ich nicht alle brauche. paste haengt die
erste Zeile der zweiten Datei an die erste Zeile der ersten Datei. Klappt,
solange alles sortiert ist und die Anzahl der Zeilen gleich ist. Hier reicht
die Intelligenz von paste nicht ganz aus.
JOIN
—-
join nutzt das gemeinsame Feld, um eine korrekte Zuordnung zu kriegen
und die ueberfluessigen Eintraege zu ignorieren. Mich interessieren ja nur die
Leute aus meiner Abteilung. Die sind in der Liste mit den Anmeldenamen.
heino@sora:~$ join -t, namen raum
adam,Adam Evans,44a
erwin,Erwin Derwish,33e
igor,Igor Frankenstein,11i
otto,Otto Fant,00o
uriel,Uriel Hell,666u
Mit -t, gebe ich an, dass die Felder durch ein , als
getrennt zu behandeln sind. So sieht das ganze schon brauchbar aus. Ich habe
meine beiden Listen vereint, ohne ueberfluessige Zeilen Eintrage und ohne
doppelte Felder (Anmeldenamen) wie bei paste.
Allerdings arbeitet join hier mit sortierten Dateien.
Jede Zeile wird mit der gleichen Zeile der anderen Datei verglichen und nach
einem gemeinsamen Feld gesucht. join nimmt als Default das erste Feld
als gemeinsames. Falls die Dateien nicht sortiert waeren, gaebe es schon
Probleme und join haette weniger Treffer. Also ein Fall fuer …
SORT
—-
Um Dateien anhand eines bestimmten Feldes zu sortieren nimmt man einfach
sort. Hier eine weitere Datei mit Telefon Nummern zugeordnet zum
Anmeldenamen:
heino@sora:~$ cat telefon
00000,otto
11111,igor
22222,zorro
33333,erwin
44444,adam
55555,siegfried
666,uriel
Diese Datei ist nach dem ersten Feld sortiert (der Telefonnummer) und das gemeinsame
Feld ist in der 2 Spalte. Um diese Datei mittels join mit meinen
gesuchten Personen korrekt zu vereinen, brauche ich ersteinmal eine nach dem
2. Feld sortierte Liste:
heino@sora:~$ sort -k2 -t, telefon
44444,adam
33333,erwin
11111,igor
00000,otto
55555,siegfried
666,uriel
22222,zorro
Mit -k2 gebe ich das 2. Feld als Sortierfeld an.
Mit -t, gebe ich den Feldtrenner , an.
Diesen OUTPUT kann aich in eine Datei leiten oder ich nutze sort und
join kombiniert ueber PIPE auf der SHELL …
heino@sora:~$ sort -k2 -t, telefon | join -t, -1 1 -2 2 namen –
adam,44444
erwin,33333
igor,11111
otto,00000
uriel,666
Mit -t, gebe ich wieder den Feldtrenner an.
Mit – wird hier von STDIN gelesen, wegen der Sortierung der
Telefon Liste.
Mit -1 1 und -2 2 gebe ich an, dass in Datei 1 das erste Feld genommen wird
und in Datei 2 (kommt hier ueber STDIN weil ich – angegeben habe) das
zweite Feld. Schon habe ich eine Liste mit Anmeldenamen und Telefonnummern.
Zur korrekten Ansprache der Leute braeuchte ich noch den vollen Namen dazu …
erstelle eine weitere Datei
heino@sora:~$ join -t, namen raum > nara
heino@sora:~$ cat nara
adam,Adam Evans,44a
erwin,Erwin Derwish,33e
igor,Igor Frankenstein,11i
otto,Otto Fant,00o
uriel,Uriel Hell,666u
heino@sora:~$ sort -t, -k2 telefon | join -t, -1 1 -2 2 nara –
adam,Adam Evans,44a,44444
erwin,Erwin Derwish,33e,33333
igor,Igor Frankenstein,11i,11111
otto,Otto Fant,00o,00000
uriel,Uriel Hell,666u,666
Nun habe ich eine brauchbare Liste … inspiriert wurde ich von meinem
aktuellen Bedarf dieser Liste und der
Seite: Lesser-known Linux commands: join, paste, and sort
CUT
—
Ergaenzender Vorschlag von Nobby: eine Auswahl relevanter Spalten
ausgeben
Mit cut kann ich aus der Liste die vollen Namen und deren
Telefonnummern extrahieren.
Nur voller Name mit Telefonnummer
heino@sora:~$ sort -t, -k2 telefon | join -t, -1 1 -2 2 nara – | cut -f 2,4 -d“,“
Adam Evans,44444
Erwin Derwish,33333
Igor Frankenstein,11111
Otto Fant,00000
Uriel Hell,666
-f 2,4 gibt an, nur die 2. und die 4. Spalte auszuschneiden
-d „,“ bestimmt den Feldtrenner