Μετάβαση στο περιεχόμενο

Εθνικό Κέντρο Βιοτεχνολογικών Πληροφοριών (ΗΠΑ)

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
Εθνικό Κέντρο Βιοτεχνολογικών Πληροφοριών (ΗΠΑ)
Λογότυπο του Εθνικού Κέντρου Βιοτεχνολογικών Πληροφοριών
ΣυντομογραφίαNCBI
Ίδρυση1988, πριν 37 έτη (1988)
ΈδραBethesda, Μέριλαντ, Ηνωμένες Πολιτείες Αμερικής
Συντεταγμένες38°59′45″N 77°05′56″W / 38.9959°N 77.0989°W / 38.9959; -77.0989Συντεταγμένες: 38°59′45″N 77°05′56″W / 38.9959°N 77.0989°W / 38.9959; -77.0989
ΔιευθυντήςStephen Sherry (από τις 26 Σεπτεμβρίου 2022)
Μητρική οργάνωσηΑμερικανική Εθνική Ιατρική Βιβλιοθήκη
Ιστότοποςncbi.nlm.nih.gov

Το Εθνικό Κέντρο Βιοτεχνολογικών Πληροφοριών των ΗΠΑ (National Center for Biotechnology Information, NCBI)[1][2] αποτελεί μέρος της Εθνικής Ιατρικής Βιβλιοθήκης (National Library of Medicine, NLM), ενός τμήματος των Εθνικών Ινστιτούτων Υγείας των ΗΠΑ (National Institutes of Health, NIH). Είναι εγκεκριμένο και χρηματοδοτείται από την κυβέρνηση των ΗΠΑ. Το NCBI βρίσκεται στη Μπέθεσντα, του Μέριλαντ και ιδρύθηκε το 1988.

Το NCBI φιλοξενεί μια σειρά από βάσεις δεδομένων σχετικές με τη βιοτεχνολογία και τη βιοϊατρικής και αποτελεί σημαντικό πόρο για εργαλεία και υπηρεσίες βιοπληροφορικής. Οι κύριες βάσεις δεδομένων περιλαμβάνουν την Genbank για αλληλουχίες DNA και την PubMed, μια βιβλιογραφική βάση δεδομένων για βιοϊατρική βιβλιογραφία. Άλλες βάσεις δεδομένων περιλαμβάνουν τη βάση δεδομένων NCBI Epigenomics. Όλες αυτές οι βάσεις δεδομένων είναι διαθέσιμες στο διαδίκτυο μέσω της μ��χανής αναζήτησης Entrez. Το NCBI διηύθυνε ο David Lipman,[2] ένας από τους αρχικούς συγγραφείς του προγράμματος ευθυγράμμισης αλληλουχίας BLAST [3].

Κύριο λήμμα: Genbank

Το NCBI είχε την ευθύνη για τη διάθεση των βάσεων δεδομένων αλληλουχιών DNA της GenBank από το 1992.[4] Η GenBank συντονίζεται με μεμονωμένα εργαστήρια και άλλες βάσεις δεδομένων αλληλουχιών, όπως αυτές του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (European Molecular Biology Laboratory, EMBL) και της Τράπεζας Δεδομένων DNA της Ιαπωνίας (DNA Data Bank of Japan, DDBJ).[4]

Από το 1992, το NCBI έχει αναπτυχθεί ώστε να παρέχει και άλλες βάσεις δεδομένων εκτός από την GenBank. Το NCBI παρέχει τη βάση δεδομένων Gene, την Online Mendel Inheritance in Man, τη Βάση Δεδομένων Μοριακής Μοντελοποίησης (Molecular Modeling Database, 3D πρωτεϊνικές δομές), την dbSNP (μια βάση δεδομένων με μονονουκλεοτιδικούς πολυμορφισμούς), τη Συλλογή Αλληλουχιών Αναφοράς (Reference Sequence Collection), έναν χάρτη του ανθρώπινου γονιδιώματος και ένα πρόγραμμα περιήγησης ταξινόμησης, και συντονίζεται με το Εθνικό Ινστιτούτο Καρκίνου για την παροχή του Έργου Ανατομίας Γονιδιώματος του Καρκίνου. Το NCBI εκχωρεί ένα μοναδικό αναγνωριστικό (αριθμό ταξινόμησης) σε κάθε είδος οργανισμού.[5]

Το NCBI διαθέτει εργαλεία λογισμικού που είναι διαθέσιμα μέσω προγραμμάτων περιήγησης ιστού ή μέσω FTP. Για παράδειγμα, το BLAST είναι ένα πρόγραμμα αναζήτησης ομοιότητας αλληλουχιών. Το BLAST μπορεί να κάνει συγκρίσεις αλληλουχιών με τη βάση δεδομένων DNA της GenBank σε λιγότερο από 15 δευτερόλεπτα.

The NCBI Bookshelf[6] είναι μια συλλογή από ελεύθερα προσβάσιμες, διαθέσιμες για λήψη, ηλεκτρονικές εκδόσεις επιλεγμένων βιοϊατρικών βιβλίων. Το Bookshelf καλύπτει ένα ευρύ φάσμα θεμάτων, όπως μοριακή βιολογία, βιοχημεία, κυτταρική βιολογία, γενετική, μικροβιολογία, νοσολογικές καταστάσεις από μοριακή και κυτταρική άποψη, ερευνητικές μεθόδους και ιολογία. Μερικά από τα βιβλία είναι ηλεκτρονικές εκδόσεις προηγούμενων δημοσιευμένων βιβλίων, ενώ άλλα, όπως το Coffee Break, γράφονται και επιμελούνται από το προσωπικό του NCBI. Το Bookshelf αποτελεί συμπλήρωμα του αποθετηρίου Entrez PubMed περιλήψεων δημοσιεύσεων με αξιολόγηση από ομότιμους, καθώς τα περιεχόμενα του Bookshelf παρέχουν καθιερωμένες προοπτικές σε εξελισσόμενους τομείς μελέτης και ένα πλαίσιο στο οποίο μπορούν να οργανωθούν πολλά διαφορετικά μεμονωμένα ερευνητικά έργα που έχουν αναφερθεί.

Basic Local Alignment Search Tool (BLAST)

[Επεξεργασία | επεξεργασία κώδικα]

Το BLAST είναι ένας αλγόριθμος που χρησιμοποιείται για τον υπολογισμό της ομοιότητας αλληλουχιών μεταξύ βιολογικών αλληλουχιών, όπως οι αλληλουχίες νουκλεοτιδίων του DNA και οι αλληλουχίες αμινοξέων πρωτεϊνών.[7] Το BLAST είναι ένα ισχυρό εργαλείο για την εύρεση αλληλουχιών παρόμοιων με την αλληλουχία ερωτήματος εντός του ίδιου οργανισμού ή σε διαφορετικούς οργανισμούς. Αναζητά την αλληλουχία ερωτήματος σε βάσεις δεδομένων και διακομιστές του NCBI και δημοσιεύει τα αποτελέσματα πίσω στο πρόγραμμα περιήγησης του ατόμου στην επιλεγμένη μορφή. Οι αλληλουχίες εισόδου στο BLAST είναι ως επί το πλείστον σε μορφή FASTA ή GenBank, ενώ η έξοδος μπορεί να παραδοθεί σε μια ποικιλία μορφών όπως HTML, μορφοποίηση XML και απλό κείμενο. Η HTML είναι η προεπιλεγμένη μορφή εξόδου για την ιστοσελίδα του NCBI. Τα αποτελέσματα για το NCBI-BLAST παρουσιάζονται σε γραφική μορφή με όλα τα αποτελέσματα που βρέθηκαν, έναν πίνακα με αναγνωριστικά αλληλουχίας για τα αποτελέσματα που έχουν δεδομένα που σχετίζονται με τη βαθμολόγηση, μαζί με τις ευθυγραμμίσεις για την αλληλουχία που μας ενδιαφέρει και τα αποτελέσματα που ελήφθησαν με ανάλογες βαθμολογίες BLAST για αυτά.[8]

Το Entrez Global Query Cross-Database Search System χρησιμοποιείται στο NCBI για όλες τις μεγάλες βάσεις δεδομένων όπως Nucleotide and Protein Sequences, Protein Structures, PubMed, Taxonomy, Complete Genomes, OMIM και αρκετές άλλες.[9] Το Entrez είναι ένα σύστημα ευρετηρίασης και ανάκτησης δεδομένων από διάφορες πηγές για βιοϊατρική έρευνα. Το NCBI διένειμε την πρώτη έκδοση του Entrez το 1991, η οποία αποτελούνταν από αλληλουχίες νουκλεοτιδίων από την Protein Data Bank ή PDB και την GenBank, αλληλουχίες πρωτεϊνών από την SWISS-PROT, μεταφρασμένες GenBank, PIR, PRF, PDB και σχετικές περιλήψεις και παραπομπές από το PubMed. Το Entrez έχει σχεδιαστεί ειδικά για να ενσωματώνει δεδομένα από διάφορες πηγές, βάσεις δεδομένων και μορφές σε ένα ενιαίο μοντέλο πληροφοριών και σύστημα ανάκτησης, το οποίο μπορεί να ανακτήσει αποτελεσματικά τις σχετικές αναφορές, ακολουθίες και δομές.[10]

Η μέθοδος Gene έχει υλοποιηθεί στο NCBI για τον χαρακτηρισμό και την οργάνωση των πληροφοριών σχετικά με τα γονίδια. Λειτουργεί ως ένας σημαντικός κόμβος στον σύνδεσμο του γονιδιωματικού χάρτη, της έκφρασης, της αλληλουχίας, της πρωτεϊνικής λειτουργίας, της δομής και των δεδομένων ομολογίας. Ένα μοναδικό GeneID αντιστοιχίζεται σε κάθε εγγραφή γονιδίου που μπορεί να παρακολουθηθεί μέσω κύκλων αναθεώρησης. Εδώ δημιουργούνται εγγραφές γονιδίων για γνωστά ή προβλεπόμενα γονίδια και οριοθετούνται από θέσεις χάρτη ή αλληλουχίες νουκλεοτιδίων. Η μέθοδος Gene έχει πολλά πλεονεκτήματα σε σχέση με τον προκάτοχό της, το LocusLink, όπως καλύτερη ενσωμάτωση με άλλες βάσεις δεδομένων στο NCBI, ευρύτερο ταξινομικό πεδίο και βελτιωμένες επιλογές για αναζήτηση και ανάκτηση που παρέχονται από το σύστημα Entrez.[11]

Η βάση δεδομένων πρωτεϊνών διατηρεί την εγγραφή κειμένου για μεμονωμένες αλληλουχίες πρωτεϊνών, η οποία προέρχεται από πολλούς διαφορετικούς πόρους, όπως το έργο NCBI Reference Sequence (RefSeq), το GenBank, το PDB και το UniProtKB/SWISS-Prot. Τα αρχεία πρωτεϊνών υπάρχουν σε διαφορετικές μορφές, συμπεριλαμβανομένων των FASTA και XML, και συνδέονται με άλλους πόρους του NCBI. Το Protein παρέχει τα σχετικά δεδομένα στους χρήστες, όπως γονίδια, αλληλουχίες DNA/RNA, βιολογικές οδούς, δεδομένα έκφρασης και παραλλαγής, καθώς και βιβλιογραφία. Παρέχει επίσης τα προκαθορισμένα σύνολα παρόμοιων και πανομοιότυπων πρωτεϊνών για κάθε αλληλουχία, όπως υπολογίζονται από το BLAST. Η βάση δεδομένων δομών του NCBI περιέχει τρισδιάστατα σύνολα συντεταγμένων για πειραματικά προσδιορισμένες δομές σε PDB, που εισάγονται από το NCBI. Η βάση δεδομένων Conserved Domain (Conserved Domain Database, CDD) πρωτεϊνών περιέχει προφίλ αλληλουχιών που χαρακτηρίζουν ιδιαίτερα συντηρημένους τομείς εντός αλληλουχιών πρωτεϊνών. Έχει επίσης εγγραφές από εξωτερικούς πόρους όπως το SMART και το Pfam. Υπάρχει μια άλλη βάση δεδομένων πρωτεϊνών, γνωστή ως βάση δεδομένων Protein Clusters, η οποία περιέχει σύνολα αλληλουχιών πρωτεϊνών που ομαδοποιούνται σύμφωνα με τις μέγιστες ευθυγραμμίσεις μεταξύ των μεμονωμένων αλληλουχιών, όπως υπολογίζονται από το BLAST.[12]

Βάση δεδομένων Pubchem

[Επεξεργασία | επεξεργασία κώδικα]

Η βάση δεδομένων PubChem του NCBI είναι ένας δημόσιος πόρος για μόρια και τις δραστηριότητές τους σε σχέση με βιολογικές δοκιμασίες. Η PubChem είναι αναζητήσιμη και προσβάσιμη από το σύστημα ανάκτησης πληροφοριών Entrez.[13]

  1. «The Human Genome Project». The New York Times.
  2. 1 2 «Research Institute Posts Gene Data on Internet». The New York Times. 26 Ιουνίου 1997.
  3. «Sense from Sequences: Stephen F. Altschul on Bettering BLAST». 2000. Αρχειοθετήθηκε από το πρωτότυπο στις 7 Οκτωβρίου 2007.
  4. 1 2 Mizrachi, Ilene (22 Αυγούστου 2007). «GenBank: The Nucleotide Sequence Database». The NCBI Handbook. National Center for Biotechnology Information (US). Αρχειοθετήθηκε από το πρωτότυπο στις 18 Μαΐου 2023.
  5. «Home - Taxonomy». NCBI. Αρχειοθετήθηκε από το πρωτότυπο στις 16 Φεβρουαρίου 2024.
  6. «Home - Books». NCBI. Ανακτήθηκε στις 12 Ιουνίου 2019.
  7. Altschul Stephen; Gish Warren; Miller Webb; Myers Eugene; Lipman David (1990). «Basic local alignment search tool». Journal of Molecular Biology 215 (3): 403–410. doi:10.1016/s0022-2836(05)80360-2. PMID 2231712.
  8. Madden, T. (2013). «The BLAST Sequence Analysis Tool». The NCBI Handbook (2nd έκδοση). Bethesda, MD: National Center for Biotechnology Information.
  9. NCBI Resource Coordinators (2012). "Database resources of the National Center for Biotechnology Information". Nucleic Acids Research 41 (Database issue): D8–D20.
  10. Ostell J. (2002). The NCBI Handbook, 2nd edition, Chapter 15, The Entrez Search and Retrieval System
  11. Maglott D., Pruitt K. & Tatusova T. (2005). The NCBI Handbook, 2nd edition, Chapter 19, Gene: A Directory of Genes
  12. Sayers E. (2013). The NCBI Handbook, 2nd edition, NCBI Protein Resources
  13. Wang Y. & Bryant S H. (2014). The NCBI Handbook, 2nd edition, NCBI PubChem BioAssay Database

Εξωτερικοί σύνδεσμοι

[Επεξεργασία | επεξεργασία κώδικα]