Added examples for sec met rules antismash uses
authorKai Blin <kai@samba.org>
Sun, 15 Jan 2012 20:07:44 +0000 (07:07 +1100)
committerKai Blin <kai@samba.org>
Sun, 15 Jan 2012 20:07:44 +0000 (07:07 +1100)
antismash_lca2011.html
drawings/sec_met_rules.odg [new file with mode: 0644]
script.txt
sec_met_rules.png [new file with mode: 0644]

index a29c2c5..ab980df 100644 (file)
   <img src="antismash_logo.svg" height="550">
   <img src="tueblogo.gif" style="float:left;margin-left:9em;">
   <img src="ruglogo.gif" style="float:left;margin-left:1em;">
-  <img src="ucsflogo.gif" style="float:left;margin-left:1em;">
   <img src="gbblogo.gif" style="float:left;margin-left:1em;">
+  <img src="ucsflogo.gif" style="float:left;margin-left:1em;">
   </section>
 
   <section class="slide" id="antismash-languages-used">
   <img src="degenerate_code.svg">
   </section>
 
-  <section class="slide">
+  <section class="slide" id="antismash-profile">
   <h2>Creating a Profile</h2>
   <img src="alignment.png" height="600">
   </section>
 
+  <section class="slide" id="antismash-cluster-identification-logic">
+  <h2>Cluster Identification Logic</h2>
+  <img src="sec_met_rules.png">
+  </section>
+
   <section class="slide" id="antismash-clusterblast">
   <h2>Cluster BLAST</h2>
   <img src="clusterblast.svg" width="850">
diff --git a/drawings/sec_met_rules.odg b/drawings/sec_met_rules.odg
new file mode 100644 (file)
index 0000000..1238199
Binary files /dev/null and b/drawings/sec_met_rules.odg differ
index fe78f0c..f0a44e0 100644 (file)
@@ -301,9 +301,10 @@ Now that we've found genes, we need to identify interesting gene clusters, that
 is, gene clusters related to secondary metabolites. We do this by building up
 profiles of known secondary metabolite genes. There's a catch however. Remember
 the degenerate code that mapped codons to amino acids? For many amino acids,
-there's more than one way to encode it. To avoid this problem, you usually work
-on the amino acid sequence. This has the added benefit that you no longer need
-to count to three all the time, it's one letter, one amino acid.
+there's more than one way to encode it. This makes it a bit tricky to build up
+profiles on the sequences. To avoid this problem, you usually work on the amino
+acid sequence. This has the added benefit that you no longer need to count to
+three all the time, it's one letter, one amino acid.
 
 To build a profile of a protein type, you collect all the known sequences, and
 then calculate the probability of specific amino acids occuring at a specific
@@ -351,12 +352,31 @@ in a while, NRPSPredictor can fall back to predicting more general properties
 of the module's substance. For example, the prediction could be "it's one of
 the charged amino acids".
 
-Smiles/structure prediction
+While I'm certain that everybody in this room uses support vector machines
+every day, let me still take a short detour explaining how they work
+conceptually. Support Vector Machines are a machine learning method that can
+distinguish between two classes of input values by using a hyperplane to
+separate those classes in a multidimensional space. In my example, the
+multidimensional space is two-dimensional. That means my hyperplane is usually
+known as "line". Now, the goal of the support vector machine is to separate
+these two classes of datapoints in the training data with a hyperplane so that
+the distance of the datapoints is as big as possible. In the example, I'd
+venture for something like this. Note that it's not a perfect classification,
+there's no way to get a perfect linear separation the given input data. Now,
+once we've successfully trained the hyperplane to separate the two classes of
+input with minimal error, we can easily use it to classify new data points.
+
+With detailed predictions for NRPSes, it's possible to predict the basic
+structure of an antibiotic. It's not a perfect match, and we can't predict some
+further modifications, but it's often close enough to give the lab scientist
+some clues on what they're looking for and how they can isolate it. If you're
+into chemistry, you'll have seen that the residue over here isn't drawn
+correctly. That's because NRPSPredictor failed to predict an exact residue for
+this particular module. The finished product also has an additional chemical
+bond here, but no one figured out how to predict those yet.
 
 svg/web site generation
 
-full genmome hmmer/blast
+web frontend...
 
-fischbach method
 
-web frontend...
diff --git a/sec_met_rules.png b/sec_met_rules.png
new file mode 100644 (file)
index 0000000..c6c429a
Binary files /dev/null and b/sec_met_rules.png differ