Modules | Area | Type | Hours | Teacher(s) | |
BIOINFORMATICA | INF/01 | LEZIONI | 32 |
|
Il corso è finalizzato a fornire i principali concetti di Bioinformatica, con particolare riferimento alla bioinformatica per l'analisi di sequenze biologiche. Il corso è di tipo elementare e non richiede specifici prerequisiti, in particolare non di tipo informatico.
This is a basic course in Bioinformatics, focused in particular on bioinformatics tools for analyzing nucleotides/proteins sequences. No specific pre-requisited are requested.
- esercizi durante il corso
- simulazione di esami finali
- prove a risposta multipla
- homeworks
- final tests simulations
- multiple-choice tests
Uso dei principali applicativi per ricerche in banche dati, allinamenti di sequenze e problemi affini. Capacità di capire il correlato informatico dei problemi dell'elaborazione di dati biologici.
Use of the main tools for biological databanks searching and biological sequences analysis. Ability to understand the computational side of biological problems.
- esercizi su problemi-tipo
- tests on typical problems in bioinfomatics
- familiarità con l'uso di strumenti informatici
- capacità di capire i limiti e le corrette modalità d'impiego degli strumenti informatici
- confidence in computational tools use
- ability to understand the limits and correct usage of computational tools
- capacità di risolvere autonomamente i problemi-tipo proposti
- ability in problem-solving
Nessun prerequisito specifico, a parte una generale formazione in biologia e biologia molecolare e nozioni veramente basilari di statistica
The student is supposed to know the basic standard concepts in biology, molecular biology and statistics.
Certamente è molto utile il corso di Biostatistica
It is useful the Biostatistic course
- indicato per il corso di Analisi Genetiche e Genomiche
This course is strongly suggested to follow Genetic and Genomics Analysis
Lezioni frontali con esercitazioni al computer. Anche se è previsto l'uso di aule informatizzate, è comunque consigliato agli studenti di portare a lezione il proprio computer portatile o un tablet.
Frontal lessons with computer exercises. For the current academic year, given the problems that the pandemic causes for access to computerized classrooms, students are required to bring their laptop or tablet to class.
Parte tecnica introduttiva:
Fondamenti di programmazione in R (in comune col corso di Analisi Genetiche e Genomiche)
Introduzione
Cenni di teoria dell’informazione e di teoria algoritmica dell’informazione. Informazione, entropia e probabilità. Entropia condizionata. Complessità. Codici e canali. Problemi sulle stringhe. Algoritmi per il confronto e l’allineamento di stringhe.
Parte I: la bioinformatica orientata alle sequenze
Dati biologici e loro manipolazione
Basi di dati di sequenze di macromolecole biologiche. Problemi relativi all’archiviazione e alla ricerca di sequenze di macromolecole. Le banche dati esistenti: struttura dei record e strategie di interrogazione. Concetto di “database annotato”. Algoritmi per sequenze biologiche. Algoritmi per la ricerca di somiglianze tra sequenze. Algoritmi per l’allineamento tra sequenze. BLAST, FASTA.
Analisi comparativa ed evolutiva di sequenze biologiche
Multiallineamento. Costruzione di alberi filogenetici rooted e unrooted. PHYLIP. Problemi relativi alle stime temporali su alberi filogenetici.
Analisi di genomi completi
Ortologie e paralogie. Autosomiglianze. Disegno di primers ottimali per PCR. Risultati dell’analisi statistica di alcuni dei genomi completi noti. Ipotesi delle duplicazioni ancestrali. Database di genomi completi e strumenti di pubblico dominio per l’analisi di genomi completi. Predizione di sequenze trascriventi e non trascriventi. Predizione di ORI, ORF, introni/esoni. Algoritmi per la ricerca e la predizione di TFBS. Predizione di regioni S/MAR. Siti fragili. DNA satellite e correlazioni long-range. Analisi della variazione della complessità lungo sequenze genomiche.
Parte II: bioinformatica & NGS
Introduzione alle tecnologie NGS. Formato dei file Fastq, Bam, Cram, VCF. Assemblaggio de novo. Mapping di sequenze. Annotazione di variante. Stima dell’espressione e dell’espressione differenziale
Parte III: la bioinformatica orientata alle funzioni
Reti di controllo genico e metabolic pathways. Descrizione del flusso informazionale all’interno di una cellula. Ruolo dei sistemi formali. I proteomi. Database di proteomi. Uso dei proteomi nella genetica funzionale.
Parte IV: esercitazioni al computer
La struttura di Internet: ambienti e applicativi su rete. Siti di interesse biologico. Interrogazioni ai database. Uso guidato dei vari software illustrati nel corso. Applicazione pratica di ciascuna nozione teorica illustrata.
Technical introduction: Programming in R (shared with the course of "Genetic and Genomic Analisys")
Introduction.
Basic introduction to classic and algorithmic information theories. Information, entropy and probability. Conditional entropy. Complexity. Codex and channels. Problems on strings. Algorithms for string comparison and alignment.
Sect. 1: bioinformatics for sequences
Biological data and their management
Biological sequences databases. Storing and retrieving macromolecules: problems and tools. The "annotated databases". Algorithms for biological sequences analysis, comparison and alignment. FASTA, BLAST.
Comparative and evolutionary analysis of biological sequences
Multi-alignment. Building rooted/unrooted phylogenetic tree. PHYLIP package. Problems related to the time estimation on phylogenetic tree.
Complete genome analysis
Orthologies and paralogies. Self-similarities. Optimal PCR primers design. Statistical genomics: relevant findings. Methods for predicting coding/non-coding regions. Prediction of ORI, ORF, introns/exons. Algorithms for detecting TFBS. Complexity behavior on a genome. Basics concepts of Markovian processes and transition matrices. Hidden Markov Models and their applications. Genomics Databases: Genome Browser@UCSC and EnsEmbl. Data-types. Track and tables. Custom tracks and BED-type files.
Sect. II: bioinformatics for structures
Fundamentals of experimental techniques for structures measuring: X-Ray diffraction, NMR and cryo-microscopy. Structural databases: PDB and its data format. Hydropathy profiles by Kyte and Doolitte. Statistical method by Chou and Fasman. Elements of neural networks. Prediction methods based on neural networks. The AlphaFold case.
Sect. III: bioinformatics for functions
Gene control networks and metabolic pathways. How to describe the information flow inside a cell. The formal systems. Metabolic network databases: KEGG/Pathway and its data-type. Proteomes. Proteome databases.
Sect. IV: computer practice.
The structure of a generic computer. The structure of Internet: local and remote applications. Database’s interrogation. Guided use of all the software presented during the lessons. Practical application of all the theoretical concepts presented.
Materiale fornito dal docente e reperibile sul portale elearning e sui canali
Lesk, “Bioinformatica”, McGraw-Hill.
Pascarella e Paiardini, “Bioinformatica”, Zanichelli
Helmer-Citterich et al, “Fondamenti di Bioinformatica”, Zanichelli
Material provided by the teacher
Test a risposta multipla, eventualmente integrato di colloquio orale.
Multiple-choice tests
Composizione commissione d'esame
- Presidente: Roberto Marangoni (titolare)
- Commissario: Giulia Menconi (cultrice della materia)
Composizione commissione supplente:
- Presidente supplente: Nadia Pisanti (Dip. Informatica)
- Membro supplente: Giovanna Rosone (Dip. Informatica)