More updates
[kai/lca12.git] / script.txt
1 Thank you xy for the kind introduction.
2 Hi! Welcome to the biology section of LinuxConf.AU. If you want to learn about
3 how new antibiotics are discovered, you've come to the right auditorium.
4
5 I'm going to present antiSMASH, the software I'm developing as a Ph.D. project.
6 It's open source software under the GNU GPLv3 (or later) and we're also running
7 a public instance for the scientific community to use.
8
9 But before I start talking about the software I'm working on, let me give you a
10 short primer on the biology side of things. Without that background, the rest
11 of the talk will be much harder to follow. Feel free to interrupt with
12 questions at any time.
13
14 As you might have seen on the first slide, I work in the Division for
15 Microbiology/Biotechnology at the Microbiology Institute of the University of
16 Tübingen, Germany. So, biotechnology, what is this all about?
17
18 The United Nations "Convention on Biological Diversity" defines biotechnology
19 as "Any technological application that uses biological systems, living
20 organisms, or derivatives thereof, to make or modify products or processes for
21 specific use". Quite a mouthful. But let me use a metaphor to build my
22 explanations on.
23
24 In biotechnology, we use biological systems such as bacteria or yeast, and then
25 turn them into little factories to produce things we want. A popular example
26 would be... beer. It's one of the oldest biotech applications on the planet. We
27 use a certain kind of yeast (Saccharomyces cerevisiae) to turn sugar into
28 alcohol and carbon dioxide. Another widespread example is the use of a
29 bacterium (Escherichia coli) to produce human insulin to treat people suffering
30 from diabetes.
31
32 Now, what's so nice about using those tiny organisms to produce these
33 substances instead of going for an all-chemical full synthesis? Well, the first
34 is that in some cases, like yeast producing ethanol, nature has already built
35 that functionality into the organism. It's much easier to just let the yeast do
36 it's thing that it would be to do the synthesis from scratch.
37
38 Using bacteria to produce human insulin is a different story. The bacteria
39 involved don't naturally produce insulin, they were engineered to do so.
40 However, there's another reason we're using biological systems to produce
41 things. Unlike a real factory, bacteria are self-reproducing. So if you provide
42 enough food, a tiny amount of starter bacteria will multiply, and then you have
43 a lot of little factories running your production line. This turns out to be
44 much more efficient than harvesting animal insulin from pigs or other large
45 animals.
46
47 As in a big factory, our little biofactories need machines to build their
48 products. In biology, these machines are called enzymes. Some of these perform
49 the complex chemical reactions needed to build up products. Others act as
50 sensors that tell the cell about it's environment. Regulators act on the input
51 from these sensors and allow the cell to adapt to changes or find food. Last
52 but not least, there's special machines that build new machines. Those are
53 called ribosomes, and we'll have a closer look at them in a minute.
54
55 Because living organisms need to keep up with an ever-changing environment,
56 nature provided them with a wide variety of tools. It would not be efficient to
57 keep all those machines around even if they're unused. Instead, the cells only
58 carry the blueprints for the vast array of machines they can build. When the
59 cell needs a specific machine, it will select a blueprint, copy it, and then
60 build the machine it needs. The biological term for such a blueprint is "gene".
61
62 Using the instructions stored in a gene, the ribosomes build up other molecules
63 called proteins. Proteins that perform some sort of chemical reaction are the
64 enzymes I was talking about a bit earlier. Ususally, if your focus is on what
65 the thing is made from, you'd call it a protein, and if your focus is on the
66 function, you'd say "enzyme". So let's have a look at how proteins are made.
67
68 As mentioned before, the instructions on how to build a protein are stored in a
69 blueprint, the gene. Genes are encoded on nature's universal storage system, a
70 molecule called "desoxyribonucleic acid", or in short DNA. DNA was discovered
71 in 1869 by Friedrich Miescher at the University of Tübingen, in this lab in the
72 basement of the Castle of Tübingen.
73
74 DNA consists of a linear backbone (the desoxyribose). This backbone carries the
75 actual information-containing molecules, the nucleobases or bases in short.
76 There are four different bases in DNA, adenine, thymine, guanine and cytosine,
77 abbreviated as A, T, G, and C respectively. DNA turns out to be an efficient
78 and robust storage for information. This is partly because in nature a DNA
79 strand always comes together with a backup copy, the so-called complement
80 strand. The complement strand is an inverse copy of the original strand, with
81 adenine being complemented by thymine and guanine being complemented by
82 cytosine. Even if only one of the strands is present, this can be used to
83 recover the complete set of information. The two DNA strands usually wind
84 arournd each other in the twisted double helix you usually see when people talk
85 about DNA.
86
87 In bioinformatics, you usually only store one strand because calculating the
88 complement strand is trivial. So all you need to store is a (potentially pretty
89 long) sequence of As, Ts, Gs and Cs. To give you a rough number, a virus is
90 about 15000 bases or 15kb in size, a bacterium is in the low Megabase range,
91 and a human has about 3 Gb worth of genome.
92
93 Genes are encoded with this four letter alphabet using a word size of three. In
94 biology these words are called codons. This means that there are four to the
95 power of three, or 64 possible encodings. However, nature builds proteins from
96 only 20 different ammino acids, the building blocks all proteins are made from.
97 And because it would be a shame to let the remaining 44 encodings go to waste,
98 multiple different codons encode the same ammino acid.
99
100 (Quip about a graded test at the end of the talk)