More illustrations
[kai/lca12.git] / script.txt
1 Thank you xy for the kind introduction.
2 Hi! Welcome to the biology section of LinuxConf.AU. If you want to learn about
3 how new antibiotics are discovered, you've come to the right auditorium.
4
5 I'm going to present antiSMASH, the software I'm developing as a Ph.D. project.
6 It's open source software under the GNU GPLv3 (or later) and we're also running
7 a public instance for the scientific community to use.
8
9 But before I start talking about the software I'm working on, let me give you a
10 short primer on the biology side of things. Without that background, the rest
11 of the talk will be much harder to follow. Feel free to interrupt with
12 questions at any time.
13
14 As you might have seen on the first slide, I work in the Division for
15 Microbiology/Biotechnology at the Microbiology Institute of the University of
16 Tübingen, Germany. So, biotechnology, what is this all about?
17
18 The United Nations "Convention on Biological Diversity" defines biotechnology
19 as "Any technological application that uses biological systems, living
20 organisms, or derivatives thereof, to make or modify products or processes for
21 specific use". Quite a mouthful. Let me use a metaphor to build my
22 explanations on.
23
24 In biotechnology, we use biological systems such as bacteria or yeast, and then
25 turn them into little factories to produce things we want. A popular example
26 would be... beer. It's one of the oldest biotech applications on the planet. We
27 use a certain kind of yeast (Saccharomyces cerevisiae) to turn sugar into
28 alcohol and carbon dioxide. Another widespread example is the use of a
29 bacterium (Escherichia coli) to produce human insulin to treat people suffering
30 from diabetes.
31
32 Now, what's so nice about using those tiny organisms to produce these
33 substances instead of going for an all-chemical synthesis? Well, the first
34 is that in some cases, like yeast producing ethanol, nature has already built
35 that functionality into the organism. It's much easier to just let the yeast do
36 it's thing that it would be to do the synthesis from scratch.
37
38 Using bacteria to produce human insulin is a different story. The bacteria
39 involved don't naturally produce insulin, they were engineered to do so.
40 However, there's another reason we're using biological systems to produce
41 things. Unlike a real factory, bacteria are self-reproducing. So if you provide
42 enough food, a tiny amount of starter bacteria will multiply, and then you have
43 a lot of little factories running your production line. This turns out to be
44 much more efficient than harvesting animal insulin from pigs or other large
45 animals.
46
47 As in a big factory, our little biofactories need machines to build their
48 products. In biology, these machines are called enzymes. Some of these perform
49 the complex chemical reactions needed to build up products. Others act as
50 sensors that tell the cell about it's environment. Regulators act on the input
51 from these sensors and allow the cell to adapt to changes or find food. Last
52 but not least, there's special machines that build new machines. Those are
53 called ribosomes, and we'll have a closer look at them in a minute.
54
55 Because living organisms need to keep up with an ever-changing environment,
56 nature provided them with a wide variety of tools. It would not be efficient to
57 keep all those machines around even if they're unused. Instead, the cells only
58 carry the blueprints for the vast array of machines they can build. When the
59 cell needs a specific machine, it will select a blueprint, copy it, and then
60 build the machine it needs. The biological term for such a blueprint is "gene".
61
62 Using the instructions stored in a gene, the ribosomes build up other molecules
63 called proteins. Proteins that perform some sort of chemical reaction are the
64 enzymes I was talking about a bit earlier. Ususally, if your focus is on what
65 the thing is made from, you'd call it a protein, and if your focus is on the
66 function, you'd say "enzyme". So let's have a look at how proteins are made.
67
68 As mentioned before, the instructions on how to build a protein are stored in a
69 blueprint, the gene. Genes are encoded on nature's universal storage system, a
70 molecule called "desoxyribonucleic acid", or in short DNA. DNA was discovered
71 in 1869 by Friedrich Miescher at the University of Tübingen, in this lab in the
72 basement of the Castle of Tübingen.
73
74 DNA consists of a linear backbone (the desoxyribose). This backbone carries the
75 actual information-containing molecules, the nucleobases or bases in short.
76 There are four different bases in DNA, adenine, thymine, guanine and cytosine,
77 abbreviated as A, T, G, and C respectively. DNA turns out to be an efficient
78 and robust storage for information. This is partly because in nature a DNA
79 strand always comes together with a backup copy, the so-called complement
80 strand. The complement strand is an inverse copy of the original strand, with
81 adenine being complemented by thymine and guanine being complemented by
82 cytosine. Even if only one of the strands is present, this can be used to
83 recover the complete set of information. The two DNA strands usually wind
84 arournd each other in the twisted double helix you usually see when people talk
85 about DNA.
86
87 In bioinformatics, you usually only store one strand because calculating the
88 complement strand is trivial. So all you need to store is a (potentially pretty
89 long) sequence of As, Ts, Gs and Cs. To give you a rough number, a virus is
90 about 15000 bases or 15kb in size, a bacterium is in the low Megabase range,
91 and a human has about 3 Gb worth of genome.
92
93 Proteins are built from a set of 20 different building-blocks, the so-called
94 amino acids. All proteins the ribosome builds are made up from these
95 components. So, how large does the genetic "byte" need to be? We have four
96 different letters, and we need to store 20 different values. Let's do the
97 maths. One letter can store four combinations. Two letters can store four to
98 the power of two combinations, but that's sixteen, still not enough. So nature
99 went for a three letter encoding, which gives us 64 combinations to work with.
100 In biology those are called "codons". We only need 20 different codons, so
101 we're good. Because it would be a shame to let the remaining 44 codons go to
102 waste, multiple different codons encode the same ammino acid. This is called a
103 "degenerate" code and adds even more protection against changes to DNA. The
104 translations of codons into the corresponding amino acids often visualized in a
105 codon wheel, like this. Going from the center to the out side, we can see for
106 example that A-T-G encodes for Methionine. The three special cases are TGA, TAA
107 and TAG, all three telling the ribosome to stop.
108
109 Once a cell decides it needs a specific machine, it makes a copy of the
110 gene and sends it to a ribosome to build a new proteins The copy is made
111 from ribonucleic acid or RNA in short. It is similar to DNA but has some
112 chemical differences to the backbone and one of the nucleobases, but those
113 aren't really important for this part of my talk. What is important is that in
114 contrast to DNA, RNA usually does not come with a complement strand.  This
115 means that it's usually less stable, but much easier to process.
116
117 Because the RNA copy of a gene is used to tell the ribosome what to produce, it
118 is called messenger RNA, or mRNA. The flow of information from DNA to mRNA to
119 protein is called the central dogma of molecular biology. For a long time it
120 was believed to be the absolute rule at the foundation of the flield. Of
121 course, like for all absolutes, there's always an exception. Still, it's a good
122 rule of thumb to go by.
123
124 Blueprints that are usually read together are often stored close to each other
125 on the genome. These genes are said to be in a gene cluster. A common way to
126 illustrate how the genes are organized in a cluster is this kind of picture,
127 where the genes are coloured arrows. The arrow directions show which DNA strand
128 each gene is encoded on. Remember, DNA comes in two strands, and one is acting
129 as the backup copy of the other. There is no clear distinction which strand is
130 the original and which the backup, both strands carry blueprints and backups.
131
132 The processes required by a cell to carry on living are called the metabolism.
133 The metabolism is all about feeding, growing and reproducing. Central parts of
134 it are present in pretty much every living organism. Because living means
135 running the metabolism, it's going on all the time. When yeast is eating sugar
136 under low-oxygen conditions, any ethanol it produces is actually a waste
137 product. So if you're drinking a beer, you're acutally recycling what a yeast
138 cell would consider toxic waste.
139
140 Many microorganisms and plants also have something called the secondary
141 metabolism.  Opposed to the basic or primary metabolism, the secondary
142 metabolism deals with building up substances that are not strictly required for
143 living. Examples include substances like pigments that colour the petals of
144 flowers. If the plant would be unable to produce a pigment, it wouldn't die
145 right away. The same applies for the secondary metabolites that I'm interested
146 in professionally: antibiotics.
147
148 Many antibiotics are produced by bacteria. About 70% of the antibiotics on the
149 market are produced by Streptomycetes. When grown on agar plates, they form
150 these wrinkled colonies that often have colored pigments. Streptomycetes also
151 produce the molecules people usually associate with the smell of earth on a
152 freshly tiled field. Because these bacteria are such important producers of
153 antibiotics, we're focusing much of our work on them.
154
155 How do antibiotics work anyway? If we look at how a cell works, there are a
156 couple of key parts the cell absolutely requires to function. Apart from the
157 metabolism steps, the most important part is the cell wall. The cell needs it to
158 keep all the other parts together, after all.  Many antibiotics target the cell
159 wall integrity. The group of penicillin-like antibiotics is the most widespread
160 here. Food additives like Nisin also target the cell wall of bacteria and poke
161 holes into it. If we remember the way the cell produces proteins, pretty
162 much every step is the target of some antibiotic. Quinolones disrupt the
163 enzymes that unwind the DNA for replication. Antibiotics like Rifampicin target
164 the enzyme that makes the mRNA copies. Aminoglycoside antibiotics target the
165 ribosomes and stop them from producing proteins. Sulfonamides inhibit some
166 proteins in central metabolism pathways. Remember, running the metabolism means
167 living, so if the metabolism stops, the cell dies.
168
169 It would be very hard to come up with substances that hit all these diverse
170 targets when starting a clean slate design. Fortunately, bacteria have been
171 waging wars against each other for countless milennia already. All we need to
172 do to identify new antibiotics is to screen if bacteria we have discover
173 inhibit the growth of bacteria we want to kill. A common way to run these tests
174 is by using a screening assay. In a screening assay you grow the target
175 bacteria on an agar plate. On that agar plate, you put little paper discs with
176 substances you want to test. The larger the clear inhibition zone around the
177 paper disk, the more effective the substance you put on the paper disk is
178 against the tested bacteria. On this picture from the US Center of Disease
179 Control, this substance is the least effective, and this substance is the most
180 effective.
181
182 This technique is a systematic repetition of Alexander Fleming's accidental
183 discovery that a Penicillium mould would inhibit the growth of nearby
184 Staphylococcus bacteria. Even though Fleming's discovery was over 80 years ago,
185 systematic bioassays are still done this way. It's probably a good idea as
186 well, considering that penicillin and related substances are some of the most
187 versatile antibiotics known, with activity against a broad range of
188 microorganisms.
189
190 If penicillins are so great, why do we need more antibiotics? Unfortunately,
191 with the widespread use of antibiotics, we have been directing the evolution of
192 bacteria towards antibiotic resistance. If you look at this map of europe, you
193 see the percentage of Staphylococcus bacteria that were identified in clinics
194 that were resistant to all penicillin-related antibiotics we know. Ranging from
195 a really low number in scandinavia, the percentage rises the further you go
196 south. In pretty much all of the mediterranean states, at least every fourth
197 patient with a Staph infection can't be cured by using penicillins anymore.
198 I didn't find nice visual data for Australia, but a 1999 ABC report cited a
199 number betwen 20 and 40 percent of the clinical Staph isolates were resistant
200 to penicillins. This number likely has risen in the last ten years.
201
202 How do bacteria get resistances in the first place? Some bacteria will always
203 carry a mutation that makes them less suspecitble to a given antibiotic. If
204 suddenly you speed up evolution by killing off all the more vulnerable
205 bacteria, you're left with the resistant ones. And because they now don't have
206 much competition for room and food, they thrive even better. In the end, the
207 average resistance level in the population has risen. That's just what's
208 happening in clinics all over the world since the introduction of antibiotics.
209
210 A really nasty feature in this respect is that bacteria are able to transfer
211 genetic materials between different species, so even if the surviving bacteria
212 from this example are harmless, there's a possibility that the resistance
213 mechanisms will be transferred to a more harmful bacterium. It is believed that
214 many of the more complex resistance mechanism have spread by such transfers
215 from the original producer of an antibiotic. Obviously, the bacterium producing
216 an antibiotic has to be resistant against it's own product, or it would kill
217 itself off.
218
219 You can speed up this process by using sublethal doses of antibiotics, which
220 often happens when antibiotics are misused. In countries where you can buy
221 antibiotics off the shelf, like in the US, antibiotics misuse is widespread.
222 For example, I was able to buy this tube of triple-antibiotic ointment at
223 Wallmart for less than three dollars. If I misused this, I'd have a good shot
224 at creating bacteria resistant to three different antibiotics.
225
226 Remember how the central dogma of molecular biology went? From DNA to mRNA to
227 protein. Now let me show you one of the exceptions I was talking about earlier.
228 Some bacteria and moulds have a completely different way of building proteins.
229 There is no blueprint for the product, no mRNA involved and the ribosome never
230 sees anything in the process. Instead, the cell builds a huge megaenzyme that
231 works just like a factory production line. Many different modules perform a
232 well-defined reaction. Then they get the next piece of work where they perform
233 the exact same reaction again, rinse, repeat.
234
235 So why the heck does the cell bother with a whole new way of producing
236 proteins? First of all, compared to the proteins produced by a ribosome, the
237 factory-made proteins can contain unusual building blocks. The ribosome is a
238 multipurpose machine that can deal with 20 amino acids without requiring any
239 changes. A module in the production line megaenzyme is specialized on dealing
240 with a single amino acid, but can be designed to deal with non-standard
241 amino acids as well.
242
243 Also, the production line approach can produce a much higher amount of product
244 per timeframe. While the ribosome is building up products at one step at a
245 time, the production line performs all the steps at every cycle. So using a
246 production line megaenzyme, the cell can pump out a lot of product really fast.
247 Because this system allows the cell to build peptides without involving a
248 ribosome, this is called non-ribosomal peptide synthesis. The megaenzyme is a
249 non-ribosomal peptide synthase, or NRPS in short.
250
251 With the biological background part out of the way, let's talk about how I'm
252 using antiSMASH to identify gene clusters involved in the production of
253 antibiotics. Remember the biology part, I'll be handing out a graded test at
254 the end of the talk. Sorry, giving talks in university lecture hall triggers
255 teaching reflexes.
256
257 antiSMASH, the antibiotics and secondary metabolites analysis shell, is a
258 modular pipeline that uses a combination of new and exsiting bioinformatics
259 tools to search genomes for gene clusters related to secondary metabolites.
260 It's a cooperation project between the University of Tübingen, Germany, the
261 University of Groningen, Netherlands, and the University of California San
262 Francisco in the United States.
263
264 The main pipeline code is written in Python, but we have a fair share of Perl
265 code, Java GUI code, and the web front-end was just migrated off PHP to
266 Python/Ajax. As you can imagine, that makes getting new contributors really
267 easy, and we also tend to be swarmed by students with this sort of skillset.
268
269 The basic architecture of the pipeline probably looks like every other webapp
270 out there, nothing fancy to see here. So let me get into the things that are
271 going on in these little antismash boxes here, that's where the real work
272 happens. I'll follow the way of a submitted gene sequence through the pipeline,
273 explaining what's going on at every step.
274
275 If we don't know anything about the submitted sequence, we start with a gene
276 identification step. Here we start with identifying possible open reading
277 frames. An open reading frame is something that looks like a gene, but hasn't
278 been confirmed to produce anything experimentally. We call this an open reading
279 frame because a ribosome could read in 3-letter steps from a start codon, to a
280 stop codon later in the sequence. The exact process is a bit complicated, but
281 it's basically a fancy way of doing the following: Look for a start tag (ATG or
282 GTG) and then look for a stop codon downstream. Now, take all those hits and
283 combine them in a way that gives you the maximal number of long genes. This
284 heuristic turns out to work well for the data we're seeing.
285
286 We tried a couple of implementations for this to optimize for speed and
287 accuracy, but in the end we settled for using the preexisting "Glimmer" tool.
288
289 Now that we've found genes, we need to identify interesting gene clusters, that
290 is, gene clusters related to secondary metabolites. We do this by building up
291 profiles of known examples of secondary metabolite genes.
292
293 Now that we've identified interesting gene clusters, we compare them gene by
294 gene with other know secondary metabolite clusters.
295
296 NRPSpredictor...
297
298 FastTree/smCoGs
299
300 Smiles/structure prediction
301
302 svg/web site generation
303
304 full genmome hmmer/blast
305
306 fischbach method
307
308 web frontend...