pimped some images
[kai/lca12.git] / script.txt
1 Thank you xy for the kind introduction.
2 Hi! Welcome to the biology section of LinuxConf.AU. If you want to learn about
3 how new antibiotics are discovered, you've come to the right auditorium.
4
5 I'm going to present antiSMASH, the software I'm developing as a Ph.D. project.
6 It's open source software under the GNU GPLv3 (or later) and we're also running
7 a public instance for the scientific community to use.
8
9 But before I start talking about the software I'm working on, let me give you a
10 short primer on the biology side of things. Without that background, the rest
11 of the talk will be much harder to follow. Feel free to interrupt with
12 questions at any time.
13
14 As you might have seen on the first slide, I work in the Division for
15 Microbiology/Biotechnology at the Microbiology Institute of the University of
16 Tübingen, Germany. So, biotechnology, what is this all about?
17
18 The United Nations "Convention on Biological Diversity" defines biotechnology
19 as "Any technological application that uses biological systems, living
20 organisms, or derivatives thereof, to make or modify products or processes for
21 specific use". Quite a mouthful. But let me use a metaphor to build my
22 explanations on.
23
24 In biotechnology, we use biological systems such as bacteria or yeast, and then
25 turn them into little factories to produce things we want. A popular example
26 would be... beer. It's one of the oldest biotech applications on the planet. We
27 use a certain kind of yeast (Saccharomyces cerevisiae) to turn sugar into
28 alcohol and carbon dioxide. Another widespread example is the use of a
29 bacterium (Escherichia coli) to produce human insulin to treat people suffering
30 from diabetes.
31
32 Now, what's so nice about using those tiny organisms to produce these
33 substances instead of going for an all-chemical full synthesis? Well, the first
34 is that in some cases, like yeast producing ethanol, nature has already built
35 that functionality into the organism. It's much easier to just let the yeast do
36 it's thing that it would be to do the synthesis from scratch.
37
38 Using bacteria to produce human insulin is a different story. The bacteria
39 involved don't naturally produce insulin, they were engineered to do so.
40 However, there's another reason we're using biological systems to produce
41 things. Unlike a real factory, bacteria are self-reproducing. So if you provide
42 enough food, a tiny amount of starter bacteria will multiply, and then you have
43 a lot of little factories running your production line. This turns out to be
44 much more efficient than harvesting animal insulin from pigs or other large
45 animals.
46
47 As in a big factory, our little biofactories need machines to build their
48 products. In biology, these machines are called enzymes. Some of these perform
49 the complex chemical reactions needed to build up products. Others act as
50 sensors that tell the cell about it's environment. Regulators act on the input
51 from these sensors and allow the cell to adapt to changes or find food. Last
52 but not least, there's special machines that build new machines. Those are
53 called ribosomes, and we'll have a closer look at them in a minute.
54
55 Because living organisms need to keep up with an ever-changing environment,
56 nature provided them with a wide variety of tools. It would not be efficient to
57 keep all those machines around even if they're unused. Instead, the cells only
58 carry the blueprints for the vast array of machines they can build. When the
59 cell needs a specific machine, it will select a blueprint, copy it, and then
60 build the machine it needs. The biological term for such a blueprint is "gene".
61
62 Using the instructions stored in a gene, the ribosomes build up other molecules
63 called proteins. Proteins that perform some sort of chemical reaction are the
64 enzymes I was talking about a bit earlier. Ususally, if your focus is on what
65 the thing is made from, you'd call it a protein, and if your focus is on the
66 function, you'd say "enzyme". So let's have a look at how proteins are made.
67
68 As mentioned before, the instructions on how to build a protein are stored in a
69 blueprint, the gene. Genes are encoded on nature's universal storage system, a
70 molecule called "desoxyribonucleic acid", or in short DNA. DNA was discovered
71 in 1869 by Friedrich Miescher at the University of Tübingen, in this lab in the
72 basement of the Castle of Tübingen.
73
74 DNA consists of a linear backbone (the desoxyribose). This backbone carries the
75 actual information-containing molecules, the nucleobases or bases in short.
76 There are four different bases in DNA, adenine, thymine, guanine and cytosine,
77 abbreviated as A, T, G, and C respectively. DNA turns out to be an efficient
78 and robust storage for information. This is partly because in nature a DNA
79 strand always comes together with a backup copy, the so-called complement
80 strand. The complement strand is an inverse copy of the original strand, with
81 adenine being complemented by thymine and guanine being complemented by
82 cytosine. Even if only one of the strands is present, this can be used to
83 recover the complete set of information. The two DNA strands usually wind
84 arournd each other in the twisted double helix you usually see when people talk
85 about DNA.
86
87 In bioinformatics, you usually only store one strand because calculating the
88 complement strand is trivial. So all you need to store is a (potentially pretty
89 long) sequence of As, Ts, Gs and Cs. To give you a rough number, a virus is
90 about 15000 bases or 15kb in size, a bacterium is in the low Megabase range,
91 and a human has about 3 Gb worth of genome.
92
93 Proteins are built from a set of 20 different building-blocks, the so-called
94 amino acids. All proteins the ribosome builds are made up from these
95 components. So, how large does the genetic "byte" need to be? We have four
96 different letters, and we need to store 20 different values. Let's do the
97 maths. One letter can store four combinations. Two letters can store four to
98 the power of two combinations, but that's sixteen, still not enough. So nature
99 went for a three letter encoding, which gives us 64 combinations to work with.
100 In biology those are called "codons". We only need 20, so we're good. Because
101 it would be a shame to let the remaining 44 encodings go to waste, multiple
102 different codons encode the same ammino acid. This is called a "degenerate"
103 code and adds even more protection against changes to DNA. The translations of
104 codons into the corresponding amino acids often visualized in a codon wheel,
105 like this. Going from the center to the out side, we can see for example that
106 A-T-G encodes for Methionine. The three special cases are TGA, TAA and TAG, all
107 three telling the ribosome to stop.
108
109 Once a cell decides it needs a specific machine, it makes a copy of the
110 gene and sends it to a ribosome to build a new proteins The copy is made
111 from ribonucleic acid or RNA in short. It is similar to DNA but has some
112 chemical differences to the backbone and one of the nucleobases, but those
113 aren't really important for this part of my talk. What is important is that in
114 contrast to DNA, RNA usually does not come with a complement strand.  This
115 means that it's usually less stable, but much easier to process.
116
117 Because the RNA copy of a gene is used to tell the ribosome what to produce, it
118 is called messenger RNA, or mRNA. The flow of information from DNA to mRNA to
119 protein is called the central dogma of molecular biology. For a long time it
120 was believed to be the absolute rule at the foundation of the flield. Of
121 course, like for all absolutes, there's always an exception. Still, it's a good
122 rule of thumb to go by.
123
124 Blueprints that are usually read together are often stored close to each other
125 on the genome. These genes are said to be in a gene cluster. A common way to
126 illustrate how the genes are organized in a cluster is this kind of picture,
127 where the genes are coloured arrows. The arrow directions show which DNA strand
128 each gene is encoded on. Remember, DNA comes in two strands, and one is acting
129 as the backup copy of the other. There is no clear distinction which strand is
130 the original and which the backup, both strands carry blueprints and backups.
131
132 The processes required by a cell to carry on living are called the metabolism.
133 The metabolism is all about feeding, growing and reproducing. Central parts of
134 it are present in pretty much every living organism. Because living means
135 running the metabolism, it's going on all the time. When yeast is eating sugar
136 under low-oxygen conditions, any ethanol it produces is actually a waste
137 product. So if you're drinking a beer, you're acutally recycling what a yeast
138 cell would consider toxic waste.
139
140 Many microorganisms and plants also have something called the secondary
141 metabolism.  Opposed to the basic or primary metabolism, the secondary
142 metabolism deals with building up substances that are not strictly required for
143 living. Examples include substances like pigments that colour the petals of
144 flowers. If the plant would be unable to produce a pigment, it wouldn't die
145 right away. The same applies for the secondary metabolites that I'm interested
146 in professionally: antibiotics.
147
148 Many antibiotics are produced by bacteria. About 70% of the antibiotics on the
149 market are produced by Streptomycetes. When grown on agar plates, they form
150 these wrinkled colonies that often have colored pigments. Streptomycetes also
151 produce the molecules people usually associate with the smell of earth on a
152 freshly tiled field. Because these bacteria are such important producers of
153 antibiotics, we're focusing much of our work on them.
154
155 How do antibiotics work anyway? If we look at how a cell works, there are a
156 couple of key parts the cell absolutely requires to function. The cell wall,
157 which the cell not only needs to keep all the other parts together but also
158 because the electrical potential between the inside and the outside is how the
159 cell powers itself. Many antibiotics target the cell wall integrity. The group
160 of penicillin-like antibiotics is the most widespread here. Food additives like
161 Nisin also target the cell wall of bacteria and poke holes into it. Also, if we
162 remember the way the cell produces proteins, pretty much every step is the
163 target of some antibiotic. Quinolones disrupt the enzymes that unwind the DNA
164 for replication. Antibiotics like Rifampicin target the enzyme that makes the
165 mRNA copies. Aminoglycoside antibiotics target the ribosomes and stop them from
166 producing proteins. Sulfonamides inhibit some proteins in central metabolism
167 pathways. Remember, running the metabolism means living, so if the metabolism
168 stops, the cell dies.
169
170 It would be very hard to come up with substances that hit all these diverse
171 targets when starting a clean slate design. Fortunately, bacteria have been
172 waging wars against each other for countless milennia already. All we need to
173 do to identify new antibiotics is to screen if bacteria we have discover
174 inhibit the growth of bacteria we want to kill. A common way to run these tests
175 is by using a screening assay. In a screening assay you grow the target
176 bacteria on an agar plate. On that agar plate, you put little paper discs with
177 substances you want to test. The larger the clear inhibition zone around the
178 paper disk, the more effective the substance you put on the paper disk is
179 against the tested bacteria. On this picture from the US Center of Disease
180 Control, this substance is the least effective, and this substance is the most
181 effective.
182
183 This technique is a systematic repetition of Alexander Fleming's accidental
184 discovery that a Penicillium mould would inhibit the growth of nearby
185 Staphylococcus bacteria. Even though Fleming's discovery was over 80 years ago,
186 systematic bioassays are still done this way. It's probably a good idea as
187 well, considering that penicillin and related substances are some of the most
188 versatile antibiotics known, with activity against a broad range of
189 microorganisms.
190
191 If penicillins are so great, why do we need more antibiotics? Unfortunately,
192 with the widespread use of antibiotics, we have been directing the evolution of
193 bacteria towards antibiotic resistance. If you look at this map of europe, you
194 see the percentage of Staphylococcus bacteria that were identified in clinics
195 that were resistant to all penicillin-related antibiotics we know. Ranging from
196 a really low number in scandinavia, the percentage rises the further you go
197 south. In pretty much all of the mediterranean states, at least every fourth
198 patient with a Staph infection can't be cured by using penicillins anymore.
199 I didn't find nice visual data for Australia, but a 1999 ABC report cited a
200 number betwen 20 and 40 percent of the clinical Staph isolates were resistant
201 to penicillins. This number likely has risen in the last ten years.
202
203 How do bacteria get resistances in the first place? Some bacteria will always
204 carry a mutation that makes them less suspecitble to a given antibiotic. If
205 suddenly you speed up evolution by killing off all the more vulnerable
206 bacteria, you're left with the resistant ones. And because they now don't have
207 much competition for room and food, they thrive even better. In the end, the
208 average resistance level in the population has risen. That's just what's
209 happening in clinics all over the world since the introduction of antibiotics.
210
211 A really nasty feature in this respect is that bacteria are able to transfer
212 genetic materials between different species, so even if the surviving bacteria
213 from this example are harmless, there's a possibility that the resistance
214 mechanisms will be transferred to a more harmful bacterium. It is believed that
215 many of the more complex resistance mechanism have spread by such transfers
216 from the original producer of an antibiotic. Obviously, the bacterium producing
217 an antibiotic has to be resistant against it's own product, or it would kill
218 itself off.
219
220 You can speed up this process by using sublethal doses of antibiotics, which
221 often happens when antibiotics are misused. In countries where you can buy
222 antibiotics off the shelf, like in the US, antibiotics misuse is widespread.
223 For example, I was able to buy this tube of triple-antibiotic ointment at
224 Wallmart for less than three dollars. If I misused this, I'd have a good shot
225 at creating bacteria resistant to three different antibiotics.
226
227 Remember how the central dogma of molecular biology went? From DNA to mRNA to
228 protein. Now let me show you one of the exceptions I was talking about earlier.
229 Some bacteria and moulds have a completely different way of building proteins.
230 There is no blueprint for the product, no mRNA involved and the ribosome never
231 sees anything in the process. Instead, the cell builds a huge megaenzyme that
232 works just like a factory production line. Many different modules perform a
233 well-defined reaction. Then they get the next piece of work where they perform
234 the exact same reaction again, rinse, repeat.
235
236 So why the heck does the cell bother with a whole new way of producing
237 proteins? First of all, compared to the proteins produced by a ribosome, the
238 factory-made proteins can contain unusual building blocks. The ribosome is a
239 multipurpose machine that can deal with 20 amino acids without requiring any
240 changes. A module in the production line megaenzyme is specialized on dealing
241 with a single amino acid, but can be designed to deal with non-standard
242 amino acids as well.
243
244 Also, the production line approach can produce a much higher amount of product
245 per timeframe. While the ribosome is building up products at one step at a
246 time, the production line performs all the steps at every cycle. So using a
247 production line megaenzyme, the cell can pump out a lot of product really fast.
248 Because this system allows the cell to build peptides without involving a
249 ribosome, this is called non-ribosomal peptide synthesis. The megaenzyme is a
250 non-ribosomal peptide synthase, or NRPS in short.
251
252 With the biological background part out of the way, let's talk about how I'm
253 using antiSMASH to identify gene clusters involved in the production of
254 antibiotics. Remember the biology part, I'll be handing out a graded test at
255 the end of the talk. Sorry, giving talks in university lecture hall triggers
256 teaching reflexes.
257
258 antiSMASH, the antibiotics and secondary metabolites analysis shell, is a
259 modular pipeline that uses a host of exsiting bioinformatics tools to search
260 genomes for secondary metabolite gene clusters.
261