Actualmente estoy aprendiendo a trabajar con secuencias del genoma humano. Como son cantidades ingentes de secuencias es necesario un software específico y, a ser posible, que te permita trabajar desde la web para que nuestro ordenador no inicie una combustión espontánea por sobrecarga . Para esta tarea estoy utilizando el software Galaxy, desarrollado por la universidad de Pennsylvania (EE UU) que integra multitud de herramientas para el análisis de genomas. Además tienen el software ejecutable desde un servidor al que se accede a través de esta web:
En este minitutorial, explicaré cómo extraer secuencias Alu del genoma en formato FASTA. Primeramente nos registramos en el servidor para que recuerde nuestro trabajo (opcional), para ello nos dirigimos a la pestaña «User». Una vez logueados comenzamos a trabajar.
- Obtener datos del genoma. Nos dirigimos a Get Data >> UCSC Main table browser, y nos abrirá el buscador de la Universidad de California Santa Cruz. Aquí seleccionamos Genoma Humano, Ensamblaje de 2006 (actualmente está mejor anotado que el de 2009). Ahora seleccionamos el tipo de secuencia con la que queremos trabajar, en este caso Variation and Repeats y en track seleccionamos RepeatMasker como software rastreador de las secuencias. Después restringimos la búsqueda en Filter >> Edit >> RepName >> Alu*, y aceptamos haciendo clic en «Submit». Seleccionamos como formato de salida BED. Iniciamos la búsqueda con «get output» y seguidamente «Send query to Galaxy». Pasado un tiempo, en la barra lateral de la derecha de Galaxy se cargarán nuestros datos y podremos editar algunos atributos como el nombre algo importante para distinguirlo de las salidas en posteriores pasos. La salida es una tabla donde para cada secuencia nos indica el cromosoma donde se sitúa, el comienzo, el final, el nombre y la cadena en la que se dispone.
- Calcular tamaño de la secuencia. Hemos obtenido más de 1.100.000 secuencias, cifra que es muy grande por lo que es interesante reducirla por ejemplo, filtrando según el tamaño. Sin embargo, esa es una información que no tenemos en los datos obtenidos, pero que podemos calcular a partir de las columnas de comienzo y fin de la secuencia. Para ello nos dirigimos a Text Manipulation >> Compute. En «Add Expression» indicamos que queremos restar el número de la columna 2 al número de la columna 3 con expresiones regulares, en este caso escribiremos «c3-c2». Selecionamos el conjuto de datos en el que queremos que se aplique la operación y pulsamos «Submit». Tras este paso tendremos un nuevo conjunto de datos con una columna adicional que postrará el resultado de la resta para cada secuencia.
- Filtrar secuencias por tamaño. Vamos a ordenar las secuencias obtenidas según tamaño, para ello en Filter and Sort >> Sort data in ascending or descending order, seleccionamos el conjunto de datos e indicamos que queremos ordenar según «c7». Así podemos hacer una estimación visual de a partir de qué tamaño nos interesa filtar, acción que se realiza en Filter and Sort >> Filter data on any column using simple expressions, seleccionamos conjunto de datos y añadimos la condición «c7 > 300». Esto nos dará una tabla con las secuencias de un tamaño superiora 300bp.
- Obtener secuencia en formato FASTA.Para obtener la secuencia propiamente dicha y exportarla a un fichero formato FASTA nos vamos a Fetch Sequences >> Extract Genomic DNA using coordinates from assembled/unassembled genomes, y tras seleccionar datos y formato FASTA, ejecutamos la aplicación y al tiempo tendremos otra serie de datos en la barra derecha. Para exportarla a nuestro equipo hacemos clic en el nombre del conjunto de datos y presionamos sobre el diskette para guardar estos datos. Finalmente tendremos en nuestro disco duro un fichero FASTA con las secuencias Alu de una tamaño superior a 300bp anotadas en el genoma humano ensamblado en 2006.
Esto es todo, espero que os haya interesado tanto como a mí. Hasta el próximo tutorial.
Gracias por el tutorial hermano, es muy util sobre todo para las personas que empiezan como yo, un abrazo