tests: add regression tests for Follow TCP Stream
[metze/wireshark/wip.git] / tools / html2text.py
index fcd7665a50deb0591e665f77f8c48eaaeccd79fc..7e783787e4d9423f913ffeda80415a6767ac1ac2 100755 (executable)
@@ -1,4 +1,5 @@
 #!/usr/bin/env python
+# -*- coding: utf-8 -*-
 #
 # html2text.py - converts HTML to text
 #
@@ -6,19 +7,9 @@
 # By Gerald Combs <gerald@wireshark.org>
 # Copyright 1998 Gerald Combs
 #
-# This program is free software; you can redistribute it and/or
-# modify it under the terms of the GNU General Public License
-# as published by the Free Software Foundation; either version 2
-# of the License, or (at your option) any later version.
-#
-# This program is distributed in the hope that it will be useful,
-# but WITHOUT ANY WARRANTY; without even the implied warranty of
-# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
-# GNU General Public License for more details.
-#
-# You should have received a copy of the GNU General Public License
-# along with this program; if not, write to the Free Software
-# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA.
+# SPDX-License-Identifier: GPL-2.0-or-later
+
+from __future__ import unicode_literals
 
 __author__      = "Peter Wu <peter@lekensteyn.nl>"
 __copyright__   = "Copyright 2015, Peter Wu"
@@ -60,7 +51,7 @@ class TextHTMLParser(HTMLParser):
         # Indentation (for heading and paragraphs)
         self.indent_levels = [0, 0]
         # Don't dump CSS, scripts, etc.
-        self.ignore_tags = ('style', 'script')
+        self.ignore_tags = ('head', 'style', 'script')
         self.ignore_level = 0
         # href footnotes.
         self.footnotes = []
@@ -73,7 +64,7 @@ class TextHTMLParser(HTMLParser):
             initial_indent += self.list_item_prefix
             indent += '    '
         kwargs = {
-            'width': 66,
+            'width': 72,
             'initial_indent': initial_indent,
             'subsequent_indent': indent
         }
@@ -102,7 +93,7 @@ class TextHTMLParser(HTMLParser):
         if tag == 'ol':
             self.ordered_list_index = 1
         if tag == 'ul':
-            self.list_item_prefix = '  * '
+            self.list_item_prefix = '   '
         if tag == 'li' and self.ordered_list_index:
             self.list_item_prefix =  ' %d. ' % (self.ordered_list_index)
             self.ordered_list_index += 1
@@ -152,7 +143,7 @@ class TextHTMLParser(HTMLParser):
             self.skip_wrap = False
         if tag == 'a' and self.href:
             self.footnotes.append(self.href)
-            self.text_block += '[{}]'.format(len(self.footnotes))
+            self.text_block += '[{0}]'.format(len(self.footnotes))
         if tag in self.ignore_tags:
             self.ignore_level -= 1
 
@@ -174,7 +165,7 @@ class TextHTMLParser(HTMLParser):
             self.indent_levels = [1, 1]
             footnote_num = 1
             for href in self.footnotes:
-                self.text_block += '{:>2}. {}\n'.format(footnote_num, href)
+                self.text_block += '{0:>2}. {0}\n'.format(footnote_num, href)
                 footnote_num += 1
                 self._commit_block('\n')