Επισκέπτες από 13-08-2006 |
|
Η βιοϊατρική πληροφορία που υπάρχει σήμερα διαθέσιμη σε ψηφιακή μορφή,
έχει ήδη χαρακτηριστεί «ζούγκλα πληροφορίας» (information jungle - G. Eysenbach),
αφηγηματικής (narrative) μορφής με βασικό πλέον (αρνητικό) χαρακτηριστικό την ιδιαίτερη
δυσκολία αξιοποίησής της. Ο στόχος της επιστημονικής - ερευνητικής προσπάθειας είναι η
μετάβαση από την κατάσταση αυτή σε μια νέα όπου η πληροφορία θα είναι δομημένη με τρόπο
ώστε να μπορεί να χαρακτηριστεί ως συλλογή - δεξαμενή γνώσης (knowledge repository) και
η οποία θα επιτρέπει τη χρήση προηγμένων τεχνολογιών διαχείρισης γνώσης (knowledge management). |
Αντικείμενο του παρόντος έργου είναι η δημιουργία της απαραίτητης γλωσσικής υποδομής
για την Ελληνική γλώσσα, που θα επιτρέψει σε πρώτη φάση την καλύτερη διαχείριση και
επεξεργασία της βιοϊατρικής πληροφορίας που υπάρχει σε ψηφιακή μορφή. Αυτό θα καταστεί
δυνατό με τη δημιουργία και διάθεση στους χρήστες εξελιγμένων εργαλείων για την αναζήτηση,
τη συσχέτιση και το χαρακτηρισμό των βιοϊατρικών κειμένων. Σε επόμενη φάση (πέρα από τα πλαίσια
του παρόντος έργου), είναι δυνατή η επέκταση των αποτελεσμάτων του και η διαμόρφωσή τους ώστε
να εξυπηρετούν και άλλους σκοπούς (π.χ. υλοποίηση δυνατοτήτων semantic web σε βιοϊατρικούς
ιστοχώρους, κλπ). |
Πιο συγκεκριμένα, το έργο αποσκοπεί στη δημιουργία περιβάλλοντος ανάπτυξης, πιστοποίησης
και αξιοποίησης οντολογίας βιοϊατρικών όρων με ιδιαίτερο χαρακτηριστικό τη δυνατότητα
διαχείρισης πολυλεκτικών όρων. Η Οντολογία, αποτελεί τον πλέον ενδεδειγμένο και αξιοποιήσιμο
μηχανισμό αποτύπωσης γνώσης μίας θεματικής περιοχής. Καθορίζει τον τρόπο αναπαράστασης με τον
οποίο οι έννοιες τα αντικείμενα και οι μεταξύ τους σχέσεις αποτυπώνονται. |
Ως παραγόμενα - αποτελέσματα του έργου έχουν προδιαγραφεί τα: |
Α) Μεθοδολογία ανάπτυξης οντολογιών.
Η μεθοδολογία θα περιλαμβάνει:
1) τον καθορισμό της αρχικής ταξινομίας πάνω στην οποία θα βασιστεί μια οντολογία,
2) τη συλλογή κειμένων της θεματικής περιοχής-στόχου,
3) την ανίχνευση του ειδικού λεξιλογίου που χρησιμοποιούν τα κείμενα,
4) τον καθορισμό μορφοσυντακτικών κανόνων περιγραφής των όρων,
5) την εξαγωγή υποψήφιων όρων,
6) τον εμπλουτισμό της οντολογίας με επιλεγμένους όρους και σχέσεις και
7) ένα συνεχή κύκλο των βημάτων 4, 5 και 6. Αν και η εφαρμογή της μεθοδολογίας θα γίνει για την κατασκευή
βιοϊατρικής οντολογίας, μπορεί να εφαρμοσθεί στην κατασκευή οντολογιών σε οποιαδήποτε θεματική περιοχή. |
Β) Υπολογιστικοί πόροι και εργαλεία που θα υποστηρίζουν τη μεθοδολογία ανάπτυξης οντολογιών. Θα εμπλουτισθούν - επεκταθούν - αναπτυχθούν - προσαρμοστούν πόροι και εργαλεία με εξειδίκευση στην ανάλυση κειμένων βιοϊατρικού περιεχομένου,
στην εξαγωγή βιοϊατρικών όρων και στην κατασκευή οντολογίας, οι οποίοι αναλυτικά είναι οι εξής:
1) Το Μορφολογικό Λεξικό της Neurosoft εμπλουτισμένο με βιοϊατρικούς όρους.
2) Μορφοσυντακτικός Σχολιαστής (Morphosyntactic Tagger), ο οποίος θα χαρακτηρίζει μορφοσυντακτικά κάθε
λέξη ενός κειμένου.
3) Αναγνωριστής Ονοματικών Φράσεων (Noun-Phrase Chunker), ο οποίος θα ανιχνεύει υποψήφιους πολυλεκτικούς
όρους σε κείμενα με χρήση μορφοσυντακτικών κανόνων.
4) Περιβάλλον Ανάπτυξης Οντολογιών βασισμένο στο state-of-the-art σύστημα Protege (http://protege.stanford.edu),
το οποίο θα συνδυάζεται με το Μορφολογικό Λεξικό της Neu-rosoft ώστε να είναι σε θέση να χειρίζεται τη μορφολογική ποικιλότητα των ελληνικών βιοϊατρικών όρων.
5) Σημασιολογικός Σχολιαστής (Semantic Tagger), ο οποίος θα επισυνάπτει πληροφορία από την οντολογία σε όρους που
αναγνωρίζονται σε κείμενα.
5) Μηχανισμός δεικτοδότησης βιοϊατρικών κειμένων βασισμένος κυρίως στους (μονολεκτικούς και πολυλεκτικούς)
ιατρικούς όρους που εμφανίζονται μέσα σε αυτά (και όχι σε όλες -άκριτα- τις λέξεις των κειμένων). |
Γ) Σώμα (corpus) βιοϊατρικών κειμένων, το οποίο αφενός θα οδηγήσει την όλη διαδικασία εξαγωγής ορολογία
και ανάπτυξης της οντολογίας και αφετέρου θα είναι διαθέσιμο στους χρήστες/ερευνητές για ανάκτηση/εξόρυξη πληροφορίας. |
Δ) Εφαρμογές Ιστού για την παρουσίαση και χρησιμοποίηση των αποτελεσμάτων και εργαλείων του έργου, οι οποίες
θα αποτελούν και το τελικό παραδοτέο του έργου. Όλες οι τεχνολογίες, εργαλεία και πόροι που θα αναπτυχθούν στα
πλαίσια του έργου αυτού θα διατεθούν για χρήση μέσα από ένα δικτυακό τόπο. Με εφαρμογές ιστού ο εξειδικευμένος και
μη χρήστης του διαδικτύου θα μπορεί: 1) Να ελέγχει την ορθογραφία μίας λέξης (βιοϊατρικός όρος ή μέρος βιοϊατρικού
όρου). 2) Να περιηγείται στην οντολογία πραγματοποιώντας σύνθετες αναζητήσεις για σχέσεις που διέπουν όρους
της οντολογίας. 3) Να εισάγει ένα νέο κείμενο και να λαμβάνει ως αποτέλεσμα το κείμενο με μορφοσυντακτικούς και
σημασιολογικούς σχολιασμούς των όρων του κειμένου (annotations). 4) Να αναζητά κείμενα με συγκεκριμένους όρους ή
συνδυασμό όρων ή σχέσεων που ισχύουν σε όρους. Η αναζήτηση θα μπορεί να γίνει α) στο σώμα κειμένων που θα συλλεχθεί
στα πλαίσια του έργου και β) σε κείμενα του Παγκόσμιου Ιστού μέσω ειδικού meta-search engine που θα αναπτυχθεί για
το σκοπό αυτό και το οποίο θα χρησιμοποιεί το Google (http://www.google.com). Για τις παραπάνω λειτουργίες, θα
αναπτυχθούν και αντίστοιχες υπηρεσίες ιστού (web services), με τη βοήθεια των οποίων ο δικτυακός τόπος θα προσφέρει
τη δυνατότητα αξιοποίησης των αποτελεσμάτων από λογισμικό τρίτων στον ερευνητικό χώρο. |
|
|