February 23rd, 2009 Development, Open Source| 1 Comment »
Developing special, complex, but independent functional subsystems can be done in two ways:
- Develop it by yourself
- using OpenSource Frameworks, APIs, and SDKs
Of course, this is dependent on the type of software you want to create, it is dependend on the domain, the company you’re working for, and the basic conditions you’re facing. However, my experience usually is: A developer team is confronted with a project, which is too large to accomplish. The common reasons: lack of man power, time, and knowledge. In some cases the team will completely reject the project, in other cases the team will recommend a lightweight version which only covers a subset of the requested features, and in a few cases the team will just begin to develop a solution on its own … flatlining due to those high requirements. In most cases, the easiest way to solve complex but well known problems with limited resources is to use OpenSource Frameworks or APIs. There are solutions for almost every task one could face in programming. Using these, the team can focus on the important things and put first things first. I want to show two examples of how a OpenSource producted helped me and my team to develop a solution which we couldn’t accomplish on our own with the given resources (Manpower, Time)
Example 1: Implementing a flexible, high performance Enterprise Database Search for an existing PHP/MySQL System.
The problem: The client had had a very large mySQL database which was very slow and unstructured: A composite of about 200 tables with up to 18 Million data sets and each table having50 fields and more. The tables were not normalized nor were the fields optimized using proper filed types and lengths. To perform search requests they added two hash values allowing users to find information very fast as long as they’re just looking for standard values. More sophisticated search requests, table analytics, and fuzzy searches are simply not usable: They need about 20 to 30 minutes to finish and paralyze the database server for other processes. This situation was not accaptable regarding the future of the overall system. A complete re-design of the database was not possible as the first step. Because money and manpower was limited. We had to find a neat solution which is cheap but powerful, which could be implemented seamlessly in the PHP based system and which can handle the complexity of the data itself.
The solution: Read queries shall be seperated from the master database. In the same breath fuzzy searches (e.g. phonetic) shall be enabled. Ideally those fuzzy read queries directly deliver results without disturbing the rest of the database. After several brainstormings, weeks of thinking and planning, the rejection of other sound but not usable alternatives, and a lot of coffee we discovered the solution:

Apache Lucene Solr
Apache Solr. This is an enterprise search server based on lucene. We could achieve all objectives by appointing two developers three weeks to integrate Solr in our systems. Solr enables access to a structured, highly configurable fulltext index by using the standard HTT protocol. It was not our job to implement all those funky search algorithms and index strucures but to design a proper index scheme which meets both, the complexity of our data and the flexibility of the search queries we wanted to have. We decided to use Solr as a tier right above the database which just stores the index and the particular id of the result dataset but no data. Updates are solved by triggers within the mySQL database. Whenever something is updated or deleted in one of the db tables a trigger writes to a special update table. This table is read frequently by a batch job which transfers db updates to the index.
In the existing system we replaced all reading queries by an lightweight search API which encapsulates a two step retrieval: 1. Search query for Solr 2. Database query with the result set (of id’s). A Search query which needed round about 20 minutes to perform now needs not more then 0.1 seconds. We can create complex analysis and flexibly react on special search requests by our client which were rejected until now “by technical limitations”.
One of the moste important advantages Solr has is its independence. The system which was aimed to use the new search system was written in PHP. But there is no proper solution for PHP. But with Solr we just could use the standard HTTPClient to send requests to the Solr (which runs on tomcat).
Today we use the solr index for several databases and in three different environments: Integrated in PHP, directly in JAVA, and through XSLT as a HTML based web search form.
Example 2: Implementation of a text analysis system to extract and transport structured data out of unstructured text to a relational database.
The Problem: A client uses specific data to back up process critical decisions. This data is embedded in texts and thereby not automatically processable. The manual effort to structure the data of interest ist terribly expensive, but the implementation of a text information retrieval system which could automatize this task is just to expensive to develop by a team of 10 developers in terms of time and money. A simple, lightweight solution is almost impossible to imagine because of the high complexity of the data.

The solution: The university of Sheffield develops an OpenSource System which is perfect to use for solving the problem: GATE. This is a framework to read and process textual data. In addition to a basic processing framework GATE consists of a bunch of plugins covering several capabilities from different domains. The most important plugins are consolidated as ANNIE, which stands for A nearly new information extraction system). Basically GATE consists of Language Resources (LR) and Processing Resources (PR). The latter are orchastrated in pipelines and used to process language resources, e.g. documents or corpora. Processing in this context means that contents are annotated throughout the process. Our task especially required the use of two ANNIE processing resources: The JAPE-Transducer and the gazetteer. The Gazetteer uses several lookup tables to apply annotations for named entities. Therefore we built a bunch of general and domain specific tables: Firstnames, Lastnames, Cities, Zip-Codes, Streetnames, Legal Forms, Key Words, Toplevel domains etc. The JAPE-Transducer in turn uses annotations to identify patterns of higher level qualified information. Patterns are described in the JAPE language, which is based on regular expressions but applied on annotations and their features (properties).
The information identified by the JAPE Transducer is anlayzed, structured, normalized at the end of the process to prepare the transaction to the relational database. Our result: The system reads, processes and stores about 5000 documents in 20 minutes. By the addition of a compouter aided manual process for all documents with ambigious information we reached a rate of almost 100 % and a quality that is much higher then the former manual reading of the documents.
February 18th, 2009 Uncategorized| No Comments »
Enterprise Projects
Phone Database
Bei diesem Projekt geht es um die sinnvolle Wiederverwertung der Daten des Deutschen Telefonbuchs. Es wird eine Komponente entwickelt, die sowohl die Datensicherheit und vor allem den den Schutz der privaten Informationen gewährleistet, als auch eine schnelle Suche und Prozessierung dieser Informationen ermöglicht. Neben der automatisierten Anreicherung der Stammdatenbestände einiger Kunden wird vor allem eine Verwertung von implizit in den Daten verborgener Informationen angestrebt: Extraktion von Branchen-Semantiken, saubere Datenbeständen für Plausibilitätskontrollen, der Aufbau einer qualitativ hochwertigen (anonymisierten) Namensdatenbank im geografischen Kontext etc. Die Suchkomponente und die Datenmanagementkomponente soll zukünftig auch den Zugriff aus anderen Anwendungen (Web, dritt-Anbieter, etc) ermöglichen und wird demnach als Service konzipiert und in einer sich im Aufbau befindlichen serviceorientierten Umgebung integriert.
Insolvency Mining
Eine auf GATE und WEKA basierende Text Mining Komponente, zur Klassifikation und autmatischen Extraktion relevanter Informationen aus Insolvenzveröffentlichungen. Die von Amtsgerichten veröffentlichten Texte zum Stand privater und geschäftlicher Insolvenzdaten werden durch eine zweiwege - NLP Komponente (Regelbasiert und Machine Learning basiert) analysiert und ür unsere Kunden so aufgearbeitet, dass die für den Kunden relevanten Daten aus den Texten herausgefiltert werden können. Zusätzlich werden die Texte durch verschiedene Verfahren des Data- und Text Mining analysiert um zusätzliche Muster in den Texten erkennen zu können und unseren Kunden dadurch einen gewissen Mehrwert zu bieten.
KTom – Enterprise Accounting Software
AJAX basierte Anwendung zur Zuordnung von Kontenbewegungen zu Rechnungen, Aufträgen, Gutschriften und anderen Positionen. Da der Auftraggeber mehrere tausend Kontobewegungen im Monat zu verzeichnen hat, konnte nur ein geringes Grad an Kostentransparenz geschaffen werden. Durch die Software musste die schnelle manuelle Abarbeitung der Zuordnungen gelöst werden. Dazu kam der Softwareergonomie während der Umsetzung ein sehr hoher Stellenwert zu. Ein weiterer Aspekt war die Implementierung schneller Suchalgorithmen um die Kontrolle über die gesamte Datenbasis des Unternehmens abdecken zu können. Die gesamte Anwendung musste buchhalterisch einwandfrei umgesetzt sein und über einen Export-Mechanismus mit einer drittanbieter Software (Datev) integriert werden.
SCRUM Introduction
Wachstum erfodert Veränderung. Durch die Expansion des Unternehmens traten in der Planung und Umsetzung von IT Projekten sowie in der Kommunikation zwischen den IT Verantwortlichen und dem Rest des Unternehmens vermehrt Probleme auf. An dieser Stelle kam SCRUM ins Spiel. Wir implementierten den Ansatz innerhalb von 2 Monaten vollständig in der It Abteilung des Unternehmens und schufen damit die Basis für die erfolgreiche Entwicklung eines stabilen und innovativen IT Teams mit einem hohen Grad an Selbstverantwortung.
Name DB
Namen sind Schall und Rauch. Namen haben verschiedene Schreibweisen, Namen können verschiedenen Geschlechtern zugeordnet werden, Namen werden falsch geschrieben und Namen sind oft abhängig von der Herkunft des Namensträgers. In diesem Projekt habe eine große Namensdatenbank mit statistischen und phonetischen Informationen geschaffen, welche über eine API die Möglichkeit bietet Namensdaten besser handhaben zu können: “Michi” ist eigentlich “Michael”, “Frau Horst Maria” ist eigentlich “Herr Horst Maria” und “Tomas” kann auch “Thomas” oder “Tomasz” geschrieben werden und tritt oft in den Kurzformen “Tom” und “Tommy” auf.
Solr Integration
Die Datenbank als Bottle Neck. Mit einer “organisch” gewachsenen Datenbank und über 20 Mio Einträgen war es dem Auftraggeber beinahe unmöglich die Kontrolle über die Daten zu behalten. Manuelle Suchvorgänge nahmen bis zu 20 Minuten in Anspruch, was zu weniger Kundenzufriedenheit, Mitarbeiterfrustration und nicht zuletzt zur fast vollständigen Blockade der Datenbank für andere Prozesse führte. Die Lösung fand ich in Solr, einem auf Lucene basierenden Volltext Such-Server. Ich entwickelte ein Datenschema um die suchrelevanten Daten so aktuell wie möglich innerhalb des Suchservers zu halten. Dadurch wurden Suchprozesse, die vorher weit mehr als 10 Minuten benötigten, auf wenige Millisekunden reduziert. Der Suchserver ist heute über eine speziell entwickelte API als Service in die Life Anwendung des Auftraggebers integriert.
eThor
Das Land Brunei vergibt jährlich einen IT Award an interessante Entwicklungen und projekte aus dem IT Bereich. Im Jahr 2005 trat die Firma Teleconsult Intl. mit einer prototypischen Software zur Videokommunikation an: eTHOR. Die Planung und Umsetzung dieser Software führte ich in enger Absprache mit Teleconsult und Fachberatern aus der Medizin bzw. der Landwirtschaft vollständig selbstständig durch. Nachdem wir zunächst einen Award von der Regierung Bruneis gewannen, traten wir bei den Asia Pacific ICT Awards an und konnten auch hier den “Special Mention Award” gewinnen.
Petronas Intranet
Im Rahmen meines Auslandspraktikums bei TAO Consulting schulte ich mit zwei Kollegen die MitarbeiterInnen des Petronas IT Teams in DHTML und AJAX Technologien und entwickelte gemeinsam mit ihnen eine prototypische Anwendung innerhalb des Petronas Intranets. In einem 3 tägigen Projekt im Petronas Tower Kuala Lumpur entstand dabei eine ajax basierte Webanwendung für Befragungen und In-House Schulungen von Mitarbeitern des Konzerns.
WebDAV Server
Zur Verbesserung des Dokumententmanagements im EDB Singapore entwickelte ich einen vollständigen WebDAV Server. Dieser Server bietet die Möglichkeit verschiedene Daten Repositories anzubinden. Herkömmliche WebDAV Server sind Dateibasiert und sind vergleichbar mit FTP. Der hier entwickelte Server ist unabhängig von der Datenquelle. Damit können die Inhalte einr Datenbank beispielsweise direkt als Excel-Datei geöffnet und über den WebDAV Server in die Datenbank zurückgeschrieben werden.
(X)Html2Doc Converter
Während meiner Zeit als Entwickler bei Antwerpes und Partner entstand die Idee ein Modul zu entwickeln, mit dessen Hilfe sich aus (X)HTML Seiten dynamisch auch Microsft Word Dokumente generieren lassen sollten. Dazu habe ich mit Hilfe der DCOM Schnittstelle der Microsoft Office Pakete aus PHP heraus auf die Microsoft eigene Dokumentenstruktur zugreifen können. Letztendlich ist ein Modul entstanden, welches über einen SAX Parser die eigehenden XHTML Dokumente ausliest und für jedes im HTML Schema definierte Element eine bestimmte DCOM Anweisung ausführt um iterativ ein Word Dokument aufzubauen.
Academic Projects
Tama
Eine auf PHP und MySQL basierende Webanwendung für das Projektmanagement. Mit diesem Programm ist es möglich Kunden, Partner und Mitarbeiter anzulegen und zu verwalten und für Projekte und Projektaufgaben zu buchen. Nebden der eigentlichen Verwaltung der Aufgaben und Resourcen beinhaltet das Programm auch verschiedene Standardwerkzeuge aus dem Projektmanagement wie bspw. Gantt Diagramme.
Eagle Eye
Das Projekt “Eagle Eye” ist gemeinsam mit der Firma Luratech entstanden. Es handelt sich um ein Applett zum Streaming, zur Anzeige und zur intelligenten Navigation von bzw. in JPEG2000 Bilddaten. Die gesamte Prozessintelligenz liegt dabei im Applett und nicht auf einem Applikationsserver. Das Applett generiert anhand einer konfigurierten URL eine interaktive Galerie. Solche JPEG200 Bilder können sehr groß sein (1GB und mehr) und sind dementsprechend nicht geeignet um sie vollständig auf Webseiten anzuzeigen. Zur Lösung dieses Problems wurde ein spezielles Streaming-Verfahren in die Anwendung integriert, welches intelligent, anhand des aktuell angezigten Auschnitts bzw. der aktuellen Auflösung des Bildes, entscheidet welche Daten einer Datei vom Server geladen werden können. Dieser Ansatz ist besonders für Anwendungen von Interesse bei der Sateliten- oder andere hochauflösende Bilddaten angezeigt werden sollen.
Mind-Space
Mit Mindspace wurde ein Softwareprototyp geschaffen mit dem eigentlich zweidimensionale Baumstrukturen in einem 3D Raum dargestellt werden können. Grundlage des Projekts war die Mindmap Methode. Das User Interface wurde an Softwarelösungen zur Erstellung herkömmlicher Mindmaps angelehnt. Die MinMap selbst wurde in C++ mit OpenGL umgesetzt und zeigt eine sogenannte Cone Visualisierung der erstellten Mind-Map. Neben der Umsetzung mit OpenGL ist die Navigation im Baum technologisch interessant.
Geo-JXTA
Ein Projekt, welches in Zusammenarbeit mit der Uni Bremen durchgeführt wurde. Ziel war die Implementierung eines Agenten, welcher sich anhand definierter Geo-Pfade auf einer Virtuellen Landkarte bewegt, sich über PeerToPeer Kommunikation mit anderen Agenten in seiner Nähe in Verbindung setzt und Informationen austauscht. Der Informationsfluss soll über die Profilinformationen der Agenten-besitzer gesteuert werden. Mit diesem Semester-Projekt konnte ein erster Prototyp entwickelt werden. Mit diesem Prototypen ist es möglich einen Agenten anhand eingespeister GPRS Daten auf einer Virtuellen Karte zu bewegen. Zur Visualisierung wurde Google Earth in die Anwendung integriert. Die Agentensoftware selbst meldet sich in einem JXTA P2P Netzwerk an (Java Framework für P2P Netze) und macht sich bei anderen Agenten bekannt. Sobald sich ein Agent in der Nähe eines anderen Agenten befindet, findet über ein eigens entwickeltes XML Protokoll ein Informationsaustausch der beiden Agenten statt. Die Kommunikation kann “life” in Google Earth beobachtet werden.
Technology Showcase DVD - Fraunhofer Institut FOKUS
Die Konzeption verschiedener Medienformate war einer der Hauptbestandteile des Studiums. In diesem Projekt wurde in einem 4 köpfigen Team eine Lehr-DVD für den mobilen Telekomunikationsstandard IMS, der am Fraunhofer Institut für offene Kommunikationssysteme (Fokus) entwickelt wird, realisiert. Neben kurzen Interview Sequenzen wurden Audiokommentare eines professionellen Sprechers in die DVD integriert. Die Implementierung der interaktiven DVD (Mehrsparchigkeit, dynamische Menüführung, Medienauthoring) wurde durch mich durchgeführt. Die DVD wird heute auf Messen und für neue Mitarbeiter des Standards eingesetzt.
Shortfilms “la lloruna” and “Open Mic Berlin”
Im Grundstudium setzte ich mich neben reinen Informatikthemen besonders mit der Medientheorie und der Konzeption verschiedener Medienformate auseinander. Unter anderem sind dabei zwei Kurzfilme entstanden, bei denen ich im gesamten Prozess involviert war: Planung, Aquise, Dreh, digitale Bearbeitung und Schnitt, Nachbearbeitung, Finalisierung. In einem der Filme wurde eine Dokumentation über die Hip Hop Kultur in Berlin realisiert. Beim zweiten Film handelt es sich um einen experimentellen Kurzfilm.