Tiny Data - Wie verwalte ich meine Daten intelligent? "Weniger ist mehr" http://www.leitstern.de/k4/index.html Über die Jahre sammeln wir beachtliche Mengen elektronischer Daten wie E-Mail, Kontakte, Dialoge über alle Art Messenger, Sammlungen wie vielleicht Feeds, Tweets oder Blogs interessanter Autoren, Schriftverkehr mit Freunden oder Institutionen, Verträge, Rechnungen, eigene Notizen oder auch Schnappschüsse unterwegs. Es gibt Massen an Applikationen, die persönliche Daten erheben und verwalten. Öfter als uns lieb sein kann werden sie auch von Anbietern kommerziell ausgeschlachtet. Bei der ganzen Vielfalt fehlt eine Anwendung, wo solche Daten privat, sinnvoll, effizient und in ansprechender Weise aufbereitet werden. Was nützt eine Anhäufung vieler Informationen ohne die Chance etwas wieder zu finden? Linux-Systeme bieten seit langem FIND und GREP, doch stoßen solche Werkzeuge bei der Vielfalt der Formate und Encodierungen schnell an ihre Grenzen. Mit Daten in Textform und in begrenztem Umfang erzielen sie brauchbare Ergebnisse, jedoch Nutzer von Officesuiten und PDF haben das Nachsehen. Andere Lösungen versuchen nach Methode "Brute Force" sämtliche Dateien im persönlichen Ordnern zu indizieren, d.h. sie extrahieren so gut es geht Texte und erstellen Suchlisten. Sie benötigen i.d.R. enorme Geschwindigkeits- und Speicherressourcen, und vor allem unterscheiden sie nicht bzw. nur sehr marginal (z.B. anhand des MIME-Typs) zwischen Wichtigem und Unwichtigem. Außerdem können sie keine Bezüge zwischen Daten herstellen (z.B. das ist eine E-Mail von Kontakt "Egon Olsen"). Unser Projekt "K4", welches wir vorstellen wollen, nimmt sich dieser Aufgabe an: Die Schaffung einer persönlichen digitalen Assistentin, die private Daten, gleich welcher Art, sammelt, strukturiert und analysiert. Sie unterstützt den Benutzer nicht nur mit einer globalen Suchfunktion, die alle Daten gleichermaßen durchforstet, sondern auch mit Querverweisen (z.B. Notizen an E-Mails, semiautomatische Pflege von Kontaktlisten), mit Informationen aus dem Internet (z.B. CDDB, Deutsche Nationalbibliothek) sowie beim Archivieren und Wiederherstellen persönlicher Daten. Als Backend von K4 arbeitet eine Firebird Datenbank mit einer modularen Tabellenstruktur und einer Softwareschnittstelle in prozeduralem SQL. Um Daten in der Datenbank aufzubewahren, müssen sie von Anfang an strukturiert werden. Wir verfolgen dabei den Ansatz: So wenig wie möglich, so viel wie nötig (Tiny Data). In Python implementierte Dienste ermitteln die Daten, bereiten sie für die Datenbank auf und können sie auch wieder rekonstruieren. Zum Beispiel: E-Mails werden von einem IMAP-Server, aus einem Maildir-Ordner oder aus einer MBOX-Datei gelesen, Sender, Empfänger, Body und Attachments extrahiert, die Inhalte für die globale Suchfunktion indiziert. Informationen über ein Buch werden anhand seiner ISBN-Nummer aus entsprechenden Quellen im Internet (Deutsche Nationalbibliothek) bezogen. Die GUI - die digitale Assistentin "Clarissa" - ist in Pascal (Lazarus) implementiert und beschränkt sich auf Interaktionen mit dem Benutzer, die Visualisierung und manuelle Eingabe der Daten. Unsere Darbietung demonstriert den aktuellen Entwicklungsstand an Beispielen wie E-Mail, Sammlungen, Dokumentenverwaltung und Notizen. Wir geben einen einleitenden Überblick über die Architektur in der Datenbank, den Diensten und der Oberfläche. Für die Präsentation selbst sind keine professionellen Programmierkenntnisse notwendig. Jeder, der sich schon einmal den Kopf darüber zerbrochen hat, in welcher Weise man eigene Daten am besten verwalten kann, sollte sich unser Projekt näher ansehen.