Modules | Area | Type | Hours | Teacher(s) | |
BIOINFORMATICA | INF/01 | LEZIONI | 32 |
|
Il corso è finalizzato a fornire i principali concetti di Bioinformatica, con particolare riferimento alla bioinformatica per l'analisi di sequenze biologiche. Il corso è di tipo elementare e non richiede specifici prerequisiti, in particolare non di tipo informatico.
This is a basic course in Bioinformatics, focused in particular on bioinformatics tools for analyzing nucleotides/proteins sequences. No special pre-requisited are requested.
- esercizi durante il corso
- simulazione di esami finali
- prove a risposta multipla
- homeworks
- final tests simulations
- multiple-choice tests
Uso dei principali applicativi per ricerche in banche dati, allinamenti di sequenze e problemi affini. Capacità di capire il correlato informatico dei problemi dell'elaborazione di dati biologici.
Use of the main tools for biological databanks searching and biological sequences analysis. Ability to understand the computational side of biological problems.
- esercizi su problemi-tipo
- tests on typical problems in bioinfomatics
- familiarità con l'uso di strumenti informatici
- capacità di capire i limiti e le corrette modalità d'impiego degli strumenti informatici
- confidence in computational tools use
- ability to understand the limits and correct usage of computational tools
- capacità di risolvere autonomamente i problemi-tipo proposti
- ability in problem-solving
Nessun prerequisito specifico, a parte una generale formazione in biologia e biologia molecolare e nozioni veramente basilari di statistica
The student is supposed to know the basic standard concepts in biology, molecular biology and statistics.
Lezioni frontali con esercitazioni al computer. Per il corrente a.a., dati i problemi che la pandemia causa per l'accesso alle aule informatizzate, viene richiesto agli studenti di portare a lezione il proprio computer portatile o un tablet.
Introduzione
Cenni di teoria dell’informazione e di teoria algoritmica dell’informazione. Informazione, entropia e probabilità. Entropia condizionata. Complessità. Codici e canali. Problemi sulle stringhe. Algoritmi per il confronto e l’allineamento di stringhe.
Parte I: la bioinformatica orientata alle sequenze
Dati biologici e loro manipolazione
Basi di dati di sequenze di macromolecole biologiche. Problemi relativi all’archiviazione e alla ricerca di sequenze di macromolecole. Le banche dati esistenti: struttura dei record e strategie di interrogazione. Concetto di “database annotato”. Algoritmi per sequenze biologiche. Algoritmi per la ricerca di somiglianze tra sequenze. Algoritmi per l’allineamento tra sequenze. BLAST, FASTA.
Analisi comparativa ed evolutiva di sequenze biologiche
Multiallineamento. Costruzione di alberi filogenetici rooted e unrooted. PHYLIP. Problemi relativi alle stime temporali su alberi filogenetici.
Analisi di genomi completi
Ortologie e paralogie. Autosomiglianze. Disegno di primers ottimali per PCR. Risultati dell’analisi statistica di alcuni dei genomi completi noti. Ipotesi delle duplicazioni ancestrali. Database di genomi completi e strumenti di pubblico dominio per l’analisi di genomi completi. Predizione di sequenze trascriventi e non trascriventi. Predizione di ORI, ORF, introni/esoni. Algoritmi per la ricerca e la predizione di TFBS. Analisi della variazione della complessità lungo sequenze genomiche. Cenni a processi markoviani e matrici di transizione. Gli Hidden Markov Models. I database genomici: Genome Browser@UCSC e EnsEmbl. Tipologia dei dati contenuti. Tracce e tabelle. Custom tracks e file BED. BLAT.
Parte II: bioinformatica orientata alle strutture
Cenni alle tecniche sperimentali per la misurazione di strutture: diffrazione raggi X, NMR, crio-microscopia. Database strutturali: PDB e relativi tipi di dati. Profili di idropatia di Kyte e Doolitte. Metodi statistici di Chou e Fasman. Cenni alle reti neurali artificiali. Meccanismi di predizione basati su reti neurali. Il caso AlphaFold.
Parte III: la bioinformatica orientata alle funzioni
Reti di controllo genico e metabolic pathways. Descrizione del flusso informazionale all’interno di una cellula. Ruolo dei sistemi formali. Database di reti metaboliche: KEGG/Pathway, struttura dei dati. I proteomi. Database di proteomi.
Parte IV: esercitazioni al computer
Struttura di un computer generico. La struttura di Internet: ambienti e applicativi su rete. Interrogazioni ai database. Uso guidato dei vari software illustrati nel corso. Applicazione pratica di ciascuna nozione teorica illustrata.
Introduction.
Basic introduction to classic and algorithmic information theories. Information, entropy and probability. Conditional entropy. Complexity. Codex and channels. Problems on strings. Algorithms for string comparison and alignment.
Sect. 1: bioinformatics for sequences
Biological data and their management
Biological sequences databases. Storing and retrieving macromolecules: problems and tools. The "annotated databases". Algorithms for biological sequences analysis, comparison and alignment. FASTA, BLAST.
Comparative and evolutionary analysis of biological sequences
Multi-alignment. Building rooted/unrooted phylogenetic tree. PHYLIP package. Problems related to the time estimation on phylogenetic tree.
Complete genome analysis
Orthologies and paralogies. Self-similarities. Optimal PCR primers design. Statistical genomics: relevant findings. Methods for predicting coding/non-coding regions. Prediction of ORI, ORF, introns/exons. Algorithms for detecting TFBS. Complexity behavior on a genome. Basics concepts of Markovian processes and transition matrices. Hidden Markov Models and their applications. Genomics Databases: Genome Browser@UCSC and EnsEmbl. Data-types. Track and tables. Custom tracks and BED-type files.
Sect. II: bioinformatics for structures
Fundamentals of experimental techniques for structures measuring: X-Ray diffraction, NMR and cryo-microscopy. Structural databases: PDB and its data format. Hydropathy profiles by Kyte and Doolitte. Statistical method by Chou and Fasman. Elements of neural networks. Prediction methods based on neural networks. The AlphaFold case.
Sect. III: bioinformatics for functions
Gene control networks and metabolic pathways. How to describe the information flow inside a cell. The formal systems. Metabolic network databases: KEGG/Pathway and its data-type. Proteomes. Proteome databases.
Sect. IV: computer practice.
The structure of a generic computer. The structure of Internet: local and remote applications. Database’s interrogation. Guided use of all the software presented during the lessons. Practical application of all the theoretical concepts presented.
Materiale fornito dal docente
Material provided by the teacher
Test a risposta multipla, eventualmente integrato di colloquio orale. (se in remoto: colloquio orale)