Clean up pack.py.
[jelmer/dulwich-libgit2.git] / dulwich / pack.py
1 # pack.py -- For dealing wih packed git objects.
2 # Copyright (C) 2007 James Westby <jw+debian@jameswestby.net>
3 # Copryight (C) 2008-2009 Jelmer Vernooij <jelmer@samba.org>
4 #
5 # This program is free software; you can redistribute it and/or
6 # modify it under the terms of the GNU General Public License
7 # as published by the Free Software Foundation; version 2
8 # of the License or (at your option) a later version.
9 #
10 # This program is distributed in the hope that it will be useful,
11 # but WITHOUT ANY WARRANTY; without even the implied warranty of
12 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
13 # GNU General Public License for more details.
14 #
15 # You should have received a copy of the GNU General Public License
16 # along with this program; if not, write to the Free Software
17 # Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston,
18 # MA  02110-1301, USA.
19
20 """Classes for dealing with packed git objects.
21
22 A pack is a compact representation of a bunch of objects, stored
23 using deltas where possible.
24
25 They have two parts, the pack file, which stores the data, and an index
26 that tells you where the data is.
27
28 To find an object you look in all of the index files 'til you find a
29 match for the object name. You then use the pointer got from this as
30 a pointer in to the corresponding packfile.
31 """
32
33 try:
34     from collections import defaultdict
35 except ImportError:
36     from misc import defaultdict
37
38 import difflib
39 import errno
40 from itertools import (
41     chain,
42     imap,
43     izip,
44     )
45 import mmap
46 import os
47 import struct
48 try:
49     from struct import unpack_from
50 except ImportError:
51     from dulwich.misc import unpack_from
52 import sys
53 import zlib
54
55 from dulwich.errors import (
56     ApplyDeltaError,
57     ChecksumMismatch,
58     )
59 from dulwich.file import GitFile
60 from dulwich.lru_cache import (
61     LRUSizeCache,
62     )
63 from dulwich.objects import (
64     ShaFile,
65     hex_to_sha,
66     sha_to_hex,
67     )
68 from dulwich.misc import (
69     make_sha,
70     )
71
72 supports_mmap_offset = (sys.version_info[0] >= 3 or
73         (sys.version_info[0] == 2 and sys.version_info[1] >= 6))
74
75
76 def take_msb_bytes(read):
77     """Read bytes marked with most significant bit.
78
79     :param read: Read function
80     """
81     ret = []
82     while len(ret) == 0 or ret[-1] & 0x80:
83         ret.append(ord(read(1)))
84     return ret
85
86
87 def read_zlib_chunks(read_some, dec_size, buffer_size=4096):
88     """Read zlib data from a buffer.
89
90     This function requires that the buffer have additional data following the
91     compressed data, which is guaranteed to be the case for git pack files.
92
93     :param read_some: Read function that returns at least one byte, but may
94         return less than the requested size
95     :param dec_size: Expected size of the decompressed buffer
96     :param buffer_size: Size of the read buffer
97     :return: Tuple with list of chunks, length of compressed data length and
98         and unused read data.
99     :raise zlib.error: if a decompression error occurred.
100     """
101     if dec_size <= -1:
102         raise ValueError("non-negative zlib data stream size expected")
103     obj = zlib.decompressobj()
104     ret = []
105     fed = 0
106     size = 0
107     while obj.unused_data == "":
108         add = read_some(buffer_size)
109         if not add:
110             raise zlib.error("EOF before end of zlib stream")
111         fed += len(add)
112         decomp = obj.decompress(add)
113         size += len(decomp)
114         ret.append(decomp)
115     if size != dec_size:
116         raise zlib.error("decompressed data does not match expected size")
117     comp_len = fed - len(obj.unused_data)
118     return ret, comp_len, obj.unused_data
119
120 def iter_sha1(iter):
121     """Return the hexdigest of the SHA1 over a set of names.
122
123     :param iter: Iterator over string objects
124     :return: 40-byte hex sha1 digest
125     """
126     sha1 = make_sha()
127     for name in iter:
128         sha1.update(name)
129     return sha1.hexdigest()
130
131
132 def load_pack_index(path):
133     """Load an index file by path.
134
135     :param filename: Path to the index file
136     :return: A PackIndex loaded from the given path
137     """
138     f = GitFile(path, 'rb')
139     return load_pack_index_file(path, f)
140
141
142 def _load_file_contents(f, size=None):
143     fileno = getattr(f, 'fileno', None)
144     # Attempt to use mmap if possible
145     if fileno is not None:
146         fd = f.fileno()
147         if size is None:
148             size = os.fstat(fd).st_size
149         try:
150             contents = mmap.mmap(fd, size, access=mmap.ACCESS_READ)
151         except mmap.error:
152             # Perhaps a socket?
153             pass
154         else:
155             return contents, size
156     contents = f.read()
157     size = len(contents)
158     return contents, size
159
160
161 def load_pack_index_file(path, f):
162     """Load an index file from a file-like object.
163
164     :param path: Path for the index file
165     :param f: File-like object
166     :return: A PackIndex loaded from the given file
167     """
168     contents, size = _load_file_contents(f)
169     if contents[:4] == '\377tOc':
170         version = struct.unpack(">L", contents[4:8])[0]
171         if version == 2:
172             return PackIndex2(path, file=f, contents=contents,
173                 size=size)
174         else:
175             raise KeyError("Unknown pack index format %d" % version)
176     else:
177         return PackIndex1(path, file=f, contents=contents, size=size)
178
179
180 def bisect_find_sha(start, end, sha, unpack_name):
181     """Find a SHA in a data blob with sorted SHAs.
182
183     :param start: Start index of range to search
184     :param end: End index of range to search
185     :param sha: Sha to find
186     :param unpack_name: Callback to retrieve SHA by index
187     :return: Index of the SHA, or None if it wasn't found
188     """
189     assert start <= end
190     while start <= end:
191         i = (start + end)/2
192         file_sha = unpack_name(i)
193         x = cmp(file_sha, sha)
194         if x < 0:
195             start = i + 1
196         elif x > 0:
197             end = i - 1
198         else:
199             return i
200     return None
201
202
203 class PackIndex(object):
204     """An index in to a packfile.
205
206     Given a sha id of an object a pack index can tell you the location in the
207     packfile of that object if it has it.
208
209     To do the loop it opens the file, and indexes first 256 4 byte groups
210     with the first byte of the sha id. The value in the four byte group indexed
211     is the end of the group that shares the same starting byte. Subtract one
212     from the starting byte and index again to find the start of the group.
213     The values are sorted by sha id within the group, so do the math to find
214     the start and end offset and then bisect in to find if the value is present.
215     """
216
217     def __init__(self, filename, file=None, contents=None, size=None):
218         """Create a pack index object.
219
220         Provide it with the name of the index file to consider, and it will map
221         it whenever required.
222         """
223         self._filename = filename
224         # Take the size now, so it can be checked each time we map the file to
225         # ensure that it hasn't changed.
226         if file is None:
227             self._file = GitFile(filename, 'rb')
228         else:
229             self._file = file
230         if contents is None:
231             self._contents, self._size = _load_file_contents(file, size)
232         else:
233             self._contents, self._size = (contents, size)
234
235     def __eq__(self, other):
236         if not isinstance(other, PackIndex):
237             return False
238
239         if self._fan_out_table != other._fan_out_table:
240             return False
241
242         for (name1, _, _), (name2, _, _) in izip(self.iterentries(),
243                                                  other.iterentries()):
244             if name1 != name2:
245                 return False
246         return True
247
248     def __ne__(self, other):
249         return not self.__eq__(other)
250
251     def close(self):
252         self._file.close()
253
254     def __len__(self):
255         """Return the number of entries in this pack index."""
256         return self._fan_out_table[-1]
257
258     def _unpack_entry(self, i):
259         """Unpack the i-th entry in the index file.
260
261         :return: Tuple with object name (SHA), offset in pack file and CRC32
262             checksum (if known)."""
263         raise NotImplementedError(self._unpack_entry)
264
265     def _unpack_name(self, i):
266         """Unpack the i-th name from the index file."""
267         raise NotImplementedError(self._unpack_name)
268
269     def _unpack_offset(self, i):
270         """Unpack the i-th object offset from the index file."""
271         raise NotImplementedError(self._unpack_offset)
272
273     def _unpack_crc32_checksum(self, i):
274         """Unpack the crc32 checksum for the i-th object from the index file."""
275         raise NotImplementedError(self._unpack_crc32_checksum)
276
277     def __iter__(self):
278         """Iterate over the SHAs in this pack."""
279         return imap(sha_to_hex, self._itersha())
280
281     def _itersha(self):
282         for i in range(len(self)):
283             yield self._unpack_name(i)
284
285     def objects_sha1(self):
286         """Return the hex SHA1 over all the shas of all objects in this pack.
287
288         :note: This is used for the filename of the pack.
289         """
290         return iter_sha1(self._itersha())
291
292     def iterentries(self):
293         """Iterate over the entries in this pack index.
294
295         Will yield tuples with object name, offset in packfile and crc32
296         checksum.
297         """
298         for i in range(len(self)):
299             yield self._unpack_entry(i)
300
301     def _read_fan_out_table(self, start_offset):
302         ret = []
303         for i in range(0x100):
304             fanout_entry = self._contents[start_offset+i*4:start_offset+(i+1)*4]
305             ret.append(struct.unpack(">L", fanout_entry)[0])
306         return ret
307
308     def check(self):
309         """Check that the stored checksum matches the actual checksum."""
310         # TODO: Check pack contents, too
311         return self.calculate_checksum() == self.get_stored_checksum()
312
313     def calculate_checksum(self):
314         """Calculate the SHA1 checksum over this pack index.
315
316         :return: This is a 20-byte binary digest
317         """
318         return make_sha(self._contents[:-20]).digest()
319
320     def get_pack_checksum(self):
321         """Return the SHA1 checksum stored for the corresponding packfile.
322
323         :return: 20-byte binary digest
324         """
325         return str(self._contents[-40:-20])
326
327     def get_stored_checksum(self):
328         """Return the SHA1 checksum stored for this index.
329
330         :return: 20-byte binary digest
331         """
332         return str(self._contents[-20:])
333
334     def object_index(self, sha):
335         """Return the index in to the corresponding packfile for the object.
336
337         Given the name of an object it will return the offset that object
338         lives at within the corresponding pack file. If the pack file doesn't
339         have the object then None will be returned.
340         """
341         if len(sha) == 40:
342             sha = hex_to_sha(sha)
343         return self._object_index(sha)
344
345     def _object_index(self, sha):
346         """See object_index.
347
348         :param sha: A *binary* SHA string. (20 characters long)_
349         """
350         assert len(sha) == 20
351         idx = ord(sha[0])
352         if idx == 0:
353             start = 0
354         else:
355             start = self._fan_out_table[idx-1]
356         end = self._fan_out_table[idx]
357         i = bisect_find_sha(start, end, sha, self._unpack_name)
358         if i is None:
359             raise KeyError(sha)
360         return self._unpack_offset(i)
361
362
363 class PackIndex1(PackIndex):
364     """Version 1 Pack Index."""
365
366     def __init__(self, filename, file=None, contents=None, size=None):
367         PackIndex.__init__(self, filename, file, contents, size)
368         self.version = 1
369         self._fan_out_table = self._read_fan_out_table(0)
370
371     def _unpack_entry(self, i):
372         (offset, name) = unpack_from(">L20s", self._contents,
373                                      (0x100 * 4) + (i * 24))
374         return (name, offset, None)
375
376     def _unpack_name(self, i):
377         offset = (0x100 * 4) + (i * 24) + 4
378         return self._contents[offset:offset+20]
379
380     def _unpack_offset(self, i):
381         offset = (0x100 * 4) + (i * 24)
382         return unpack_from(">L", self._contents, offset)[0]
383
384     def _unpack_crc32_checksum(self, i):
385         # Not stored in v1 index files
386         return None
387
388
389 class PackIndex2(PackIndex):
390     """Version 2 Pack Index."""
391
392     def __init__(self, filename, file=None, contents=None, size=None):
393         PackIndex.__init__(self, filename, file, contents, size)
394         assert self._contents[:4] == '\377tOc', "Not a v2 pack index file"
395         (self.version, ) = unpack_from(">L", self._contents, 4)
396         assert self.version == 2, "Version was %d" % self.version
397         self._fan_out_table = self._read_fan_out_table(8)
398         self._name_table_offset = 8 + 0x100 * 4
399         self._crc32_table_offset = self._name_table_offset + 20 * len(self)
400         self._pack_offset_table_offset = (self._crc32_table_offset +
401                                           4 * len(self))
402
403     def _unpack_entry(self, i):
404         return (self._unpack_name(i), self._unpack_offset(i),
405                 self._unpack_crc32_checksum(i))
406
407     def _unpack_name(self, i):
408         offset = self._name_table_offset + i * 20
409         return self._contents[offset:offset+20]
410
411     def _unpack_offset(self, i):
412         offset = self._pack_offset_table_offset + i * 4
413         return unpack_from(">L", self._contents, offset)[0]
414
415     def _unpack_crc32_checksum(self, i):
416         return unpack_from(">L", self._contents,
417                           self._crc32_table_offset + i * 4)[0]
418
419
420 def read_pack_header(read):
421     """Read the header of a pack file.
422
423     :param read: Read function
424     """
425     header = read(12)
426     assert header[:4] == "PACK"
427     (version,) = unpack_from(">L", header, 4)
428     assert version in (2, 3), "Version was %d" % version
429     (num_objects,) = unpack_from(">L", header, 8)
430     return (version, num_objects)
431
432
433 def chunks_length(chunks):
434     return sum(imap(len, chunks))
435
436
437 def unpack_object(read_all, read_some=None):
438     """Unpack a Git object.
439
440     :param read_all: Read function that blocks until the number of requested
441         bytes are read.
442     :param read_some: Read function that returns at least one byte, but may not
443         return the number of bytes requested.
444     :return: tuple with type, uncompressed data, compressed size and tail data.
445     """
446     if read_some is None:
447         read_some = read_all
448     bytes = take_msb_bytes(read_all)
449     type = (bytes[0] >> 4) & 0x07
450     size = bytes[0] & 0x0f
451     for i, byte in enumerate(bytes[1:]):
452         size += (byte & 0x7f) << ((i * 7) + 4)
453     raw_base = len(bytes)
454     if type == 6: # offset delta
455         bytes = take_msb_bytes(read_all)
456         raw_base += len(bytes)
457         assert not (bytes[-1] & 0x80)
458         delta_base_offset = bytes[0] & 0x7f
459         for byte in bytes[1:]:
460             delta_base_offset += 1
461             delta_base_offset <<= 7
462             delta_base_offset += (byte & 0x7f)
463         uncomp, comp_len, unused = read_zlib_chunks(read_some, size)
464         assert size == chunks_length(uncomp)
465         return type, (delta_base_offset, uncomp), comp_len+raw_base, unused
466     elif type == 7: # ref delta
467         basename = read_all(20)
468         raw_base += 20
469         uncomp, comp_len, unused = read_zlib_chunks(read_some, size)
470         assert size == chunks_length(uncomp)
471         return type, (basename, uncomp), comp_len+raw_base, unused
472     else:
473         uncomp, comp_len, unused = read_zlib_chunks(read_some, size)
474         assert chunks_length(uncomp) == size
475         return type, uncomp, comp_len+raw_base, unused
476
477
478 def _compute_object_size((num, obj)):
479     """Compute the size of a unresolved object for use with LRUSizeCache."""
480     if num in (6, 7):
481         return chunks_length(obj[1])
482     return chunks_length(obj)
483
484
485 class PackData(object):
486     """The data contained in a packfile.
487
488     Pack files can be accessed both sequentially for exploding a pack, and
489     directly with the help of an index to retrieve a specific object.
490
491     The objects within are either complete or a delta aginst another.
492
493     The header is variable length. If the MSB of each byte is set then it
494     indicates that the subsequent byte is still part of the header.
495     For the first byte the next MS bits are the type, which tells you the type
496     of object, and whether it is a delta. The LS byte is the lowest bits of the
497     size. For each subsequent byte the LS 7 bits are the next MS bits of the
498     size, i.e. the last byte of the header contains the MS bits of the size.
499
500     For the complete objects the data is stored as zlib deflated data.
501     The size in the header is the uncompressed object size, so to uncompress
502     you need to just keep feeding data to zlib until you get an object back,
503     or it errors on bad data. This is done here by just giving the complete
504     buffer from the start of the deflated object on. This is bad, but until I
505     get mmap sorted out it will have to do.
506
507     Currently there are no integrity checks done. Also no attempt is made to
508     try and detect the delta case, or a request for an object at the wrong
509     position.  It will all just throw a zlib or KeyError.
510     """
511
512     def __init__(self, filename, file=None, size=None):
513         """Create a PackData object representing the pack in the given filename.
514
515         The file must exist and stay readable until the object is disposed of.
516         It must also stay the same size. It will be mapped whenever needed.
517
518         Currently there is a restriction on the size of the pack as the python
519         mmap implementation is flawed.
520         """
521         self._filename = filename
522         self._size = size
523         self._header_size = 12
524         if file is None:
525             self._file = GitFile(self._filename, 'rb')
526         else:
527             self._file = file
528         (version, self._num_objects) = read_pack_header(self._file.read)
529         self._offset_cache = LRUSizeCache(1024*1024*20,
530             compute_size=_compute_object_size)
531
532     @classmethod
533     def from_file(cls, file, size):
534         return cls(str(file), file=file, size=size)
535
536     @classmethod
537     def from_path(cls, path):
538         return cls(filename=path)
539
540     def close(self):
541         self._file.close()
542
543     def _get_size(self):
544         if self._size is not None:
545             return self._size
546         self._size = os.path.getsize(self._filename)
547         errmsg = ("%s is too small for a packfile (%d < %d)" %
548                   (self._filename, self._size, self._header_size))
549         assert self._size >= self._header_size, errmsg
550         return self._size
551
552     def __len__(self):
553         """Returns the number of objects in this pack."""
554         return self._num_objects
555
556     def calculate_checksum(self):
557         """Calculate the checksum for this pack.
558
559         :return: 20-byte binary SHA1 digest
560         """
561         s = make_sha()
562         self._file.seek(0)
563         todo = self._get_size() - 20
564         while todo > 0:
565             x = self._file.read(min(todo, 1<<16))
566             s.update(x)
567             todo -= len(x)
568         return s.digest()
569
570     def resolve_object(self, offset, type, obj, get_ref, get_offset=None):
571         """Resolve an object, possibly resolving deltas when necessary.
572
573         :return: Tuple with object type and contents.
574         """
575         if type not in (6, 7): # Not a delta
576             return type, obj
577
578         if get_offset is None:
579             get_offset = self.get_object_at
580
581         if type == 6: # offset delta
582             (delta_offset, delta) = obj
583             assert isinstance(delta_offset, int)
584             base_offset = offset-delta_offset
585             type, base_obj = get_offset(base_offset)
586             assert isinstance(type, int)
587         elif type == 7: # ref delta
588             (basename, delta) = obj
589             assert isinstance(basename, str) and len(basename) == 20
590             type, base_obj = get_ref(basename)
591             assert isinstance(type, int)
592             # Can't be a ofs delta, as we wouldn't know the base offset
593             assert type != 6
594             base_offset = None
595         type, base_chunks = self.resolve_object(base_offset, type, base_obj,
596                                                 get_ref)
597         if base_offset is not None:
598             self._offset_cache[base_offset] = type, base_chunks
599         return (type, apply_delta(base_chunks, delta))
600
601     def iterobjects(self, progress=None):
602
603         class ObjectIterator(object):
604
605             def __init__(self, pack):
606                 self.i = 0
607                 self.offset = pack._header_size
608                 self.num = len(pack)
609                 self.map = pack._file
610
611             def __iter__(self):
612                 return self
613
614             def __len__(self):
615                 return self.num
616
617             def next(self):
618                 if self.i == self.num:
619                     raise StopIteration
620                 self.map.seek(self.offset)
621                 (type, obj, total_size, unused) = unpack_object(self.map.read)
622                 self.map.seek(self.offset)
623                 crc32 = zlib.crc32(self.map.read(total_size)) & 0xffffffff
624                 ret = (self.offset, type, obj, crc32)
625                 self.offset += total_size
626                 if progress:
627                     progress(self.i, self.num)
628                 self.i+=1
629                 return ret
630         return ObjectIterator(self)
631
632     def iterentries(self, ext_resolve_ref=None, progress=None):
633         """Yield entries summarizing the contents of this pack.
634
635         :param ext_resolve_ref: Optional function to resolve base
636             objects (in case this is a thin pack)
637         :param progress: Progress function, called with current and
638             total object count.
639
640         This will yield tuples with (sha, offset, crc32)
641         """
642         found = {}
643         postponed = defaultdict(list)
644         class Postpone(Exception):
645             """Raised to postpone delta resolving."""
646
647         def get_ref_text(sha):
648             assert len(sha) == 20
649             if sha in found:
650                 return self.get_object_at(found[sha])
651             if ext_resolve_ref:
652                 try:
653                     return ext_resolve_ref(sha)
654                 except KeyError:
655                     pass
656             raise Postpone, (sha, )
657         extra = []
658         todo = chain(self.iterobjects(progress=progress), extra)
659         for (offset, type, obj, crc32) in todo:
660             assert isinstance(offset, int)
661             assert isinstance(type, int)
662             try:
663                 type, obj = self.resolve_object(offset, type, obj,
664                     get_ref_text)
665             except Postpone, (sha, ):
666                 postponed[sha].append((offset, type, obj))
667             else:
668                 shafile = ShaFile.from_raw_chunks(type, obj)
669                 sha = shafile.sha().digest()
670                 found[sha] = offset
671                 yield sha, offset, crc32
672                 extra.extend(postponed.get(sha, []))
673         if postponed:
674             raise KeyError([sha_to_hex(h) for h in postponed.keys()])
675
676     def sorted_entries(self, resolve_ext_ref=None, progress=None):
677         """Return entries in this pack, sorted by SHA.
678
679         :param resolve_ext_ref: Optional function to resolve base
680             objects (in case this is a thin pack)
681         :param progress: Progress function, called with current and
682             total object count
683         :return: List of tuples with (sha, offset, crc32)
684         """
685         ret = list(self.iterentries(resolve_ext_ref, progress=progress))
686         ret.sort()
687         return ret
688
689     def create_index_v1(self, filename, resolve_ext_ref=None, progress=None):
690         """Create a version 1 file for this data file.
691
692         :param filename: Index filename.
693         :param resolve_ext_ref: Function to use for resolving externally
694             referenced SHA1s (for thin packs)
695         :param progress: Progress report function
696         """
697         entries = self.sorted_entries(resolve_ext_ref, progress=progress)
698         write_pack_index_v1(filename, entries, self.calculate_checksum())
699
700     def create_index_v2(self, filename, resolve_ext_ref=None, progress=None):
701         """Create a version 2 index file for this data file.
702
703         :param filename: Index filename.
704         :param resolve_ext_ref: Function to use for resolving externally
705             referenced SHA1s (for thin packs)
706         :param progress: Progress report function
707         """
708         entries = self.sorted_entries(resolve_ext_ref, progress=progress)
709         write_pack_index_v2(filename, entries, self.calculate_checksum())
710
711     def create_index(self, filename, resolve_ext_ref=None, progress=None,
712                      version=2):
713         """Create an  index file for this data file.
714
715         :param filename: Index filename.
716         :param resolve_ext_ref: Function to use for resolving externally
717             referenced SHA1s (for thin packs)
718         :param progress: Progress report function
719         """
720         if version == 1:
721             self.create_index_v1(filename, resolve_ext_ref, progress)
722         elif version == 2:
723             self.create_index_v2(filename, resolve_ext_ref, progress)
724         else:
725             raise ValueError("unknown index format %d" % version)
726
727     def get_stored_checksum(self):
728         """Return the expected checksum stored in this pack."""
729         self._file.seek(self._get_size()-20)
730         return self._file.read(20)
731
732     def check(self):
733         """Check the consistency of this pack."""
734         return (self.calculate_checksum() == self.get_stored_checksum())
735
736     def get_object_at(self, offset):
737         """Given an offset in to the packfile return the object that is there.
738
739         Using the associated index the location of an object can be looked up,
740         and then the packfile can be asked directly for that object using this
741         function.
742         """
743         if offset in self._offset_cache:
744             return self._offset_cache[offset]
745         assert isinstance(offset, long) or isinstance(offset, int),\
746                 "offset was %r" % offset
747         assert offset >= self._header_size
748         self._file.seek(offset)
749         return unpack_object(self._file.read)[:2]
750
751
752 class SHA1Reader(object):
753     """Wrapper around a file-like object that remembers the SHA1 of its data."""
754
755     def __init__(self, f):
756         self.f = f
757         self.sha1 = make_sha("")
758
759     def read(self, num=None):
760         data = self.f.read(num)
761         self.sha1.update(data)
762         return data
763
764     def check_sha(self):
765         stored = self.f.read(20)
766         if stored != self.sha1.digest():
767             raise ChecksumMismatch(self.sha1.hexdigest(), sha_to_hex(stored))
768
769     def close(self):
770         return self.f.close()
771
772     def tell(self):
773         return self.f.tell()
774
775
776 class SHA1Writer(object):
777     """Wrapper around a file-like object that remembers the SHA1 of its data."""
778
779     def __init__(self, f):
780         self.f = f
781         self.sha1 = make_sha("")
782
783     def write(self, data):
784         self.sha1.update(data)
785         self.f.write(data)
786
787     def write_sha(self):
788         sha = self.sha1.digest()
789         assert len(sha) == 20
790         self.f.write(sha)
791         return sha
792
793     def close(self):
794         sha = self.write_sha()
795         self.f.close()
796         return sha
797
798     def tell(self):
799         return self.f.tell()
800
801
802 def write_pack_object(f, type, object):
803     """Write pack object to a file.
804
805     :param f: File to write to
806     :param type: Numeric type of the object
807     :param object: Object to write
808     :return: Tuple with offset at which the object was written, and crc32
809     """
810     offset = f.tell()
811     packed_data_hdr = ""
812     if type == 6: # offset delta
813         (delta_base_offset, object) = object
814     elif type == 7: # ref delta
815         (basename, object) = object
816     size = len(object)
817     c = (type << 4) | (size & 15)
818     size >>= 4
819     while size:
820         packed_data_hdr += (chr(c | 0x80))
821         c = size & 0x7f
822         size >>= 7
823     packed_data_hdr += chr(c)
824     if type == 6: # offset delta
825         ret = [delta_base_offset & 0x7f]
826         delta_base_offset >>= 7
827         while delta_base_offset:
828             delta_base_offset -= 1
829             ret.insert(0, 0x80 | (delta_base_offset & 0x7f))
830             delta_base_offset >>= 7
831         packed_data_hdr += "".join([chr(x) for x in ret])
832     elif type == 7: # ref delta
833         assert len(basename) == 20
834         packed_data_hdr += basename
835     packed_data = packed_data_hdr + zlib.compress(object)
836     f.write(packed_data)
837     return (offset, (zlib.crc32(packed_data) & 0xffffffff))
838
839
840 def write_pack(filename, objects, num_objects):
841     """Write a new pack data file.
842
843     :param filename: Path to the new pack file (without .pack extension)
844     :param objects: Iterable over (object, path) tuples to write
845     :param num_objects: Number of objects to write
846     """
847     f = GitFile(filename + ".pack", 'wb')
848     try:
849         entries, data_sum = write_pack_data(f, objects, num_objects)
850     finally:
851         f.close()
852     entries.sort()
853     write_pack_index_v2(filename + ".idx", entries, data_sum)
854
855
856 def write_pack_data(f, objects, num_objects, window=10):
857     """Write a new pack file.
858
859     :param filename: The filename of the new pack file.
860     :param objects: List of objects to write (tuples with object and path)
861     :return: List with (name, offset, crc32 checksum) entries, pack checksum
862     """
863     recency = list(objects)
864     # FIXME: Somehow limit delta depth
865     # FIXME: Make thin-pack optional (its not used when cloning a pack)
866     # Build a list of objects ordered by the magic Linus heuristic
867     # This helps us find good objects to diff against us
868     magic = []
869     for obj, path in recency:
870         magic.append( (obj.type_num, path, 1, -obj.raw_length(), obj) )
871     magic.sort()
872     # Build a map of objects and their index in magic - so we can find
873     # preceeding objects to diff against
874     offs = {}
875     for i in range(len(magic)):
876         offs[magic[i][4]] = i
877     # Write the pack
878     entries = []
879     f = SHA1Writer(f)
880     f.write("PACK")               # Pack header
881     f.write(struct.pack(">L", 2)) # Pack version
882     f.write(struct.pack(">L", num_objects)) # Number of objects in pack
883     for o, path in recency:
884         sha1 = o.sha().digest()
885         orig_t = o.type_num
886         raw = o.as_raw_string()
887         winner = raw
888         t = orig_t
889         #for i in range(offs[o]-window, window):
890         #    if i < 0 or i >= len(offs): continue
891         #    b = magic[i][4]
892         #    if b.type_num != orig_t: continue
893         #    base = b.as_raw_string()
894         #    delta = create_delta(base, raw)
895         #    if len(delta) < len(winner):
896         #        winner = delta
897         #        t = 6 if magic[i][2] == 1 else 7
898         offset, crc32 = write_pack_object(f, t, winner)
899         entries.append((sha1, offset, crc32))
900     return entries, f.write_sha()
901
902
903 def write_pack_index_v1(filename, entries, pack_checksum):
904     """Write a new pack index file.
905
906     :param filename: The filename of the new pack index file.
907     :param entries: List of tuples with object name (sha), offset_in_pack,
908         and crc32_checksum.
909     :param pack_checksum: Checksum of the pack file.
910     """
911     f = GitFile(filename, 'wb')
912     f = SHA1Writer(f)
913     fan_out_table = defaultdict(lambda: 0)
914     for (name, offset, entry_checksum) in entries:
915         fan_out_table[ord(name[0])] += 1
916     # Fan-out table
917     for i in range(0x100):
918         f.write(struct.pack(">L", fan_out_table[i]))
919         fan_out_table[i+1] += fan_out_table[i]
920     for (name, offset, entry_checksum) in entries:
921         f.write(struct.pack(">L20s", offset, name))
922     assert len(pack_checksum) == 20
923     f.write(pack_checksum)
924     f.close()
925
926
927 def create_delta(base_buf, target_buf):
928     """Use python difflib to work out how to transform base_buf to target_buf.
929
930     :param base_buf: Base buffer
931     :param target_buf: Target buffer
932     """
933     assert isinstance(base_buf, str)
934     assert isinstance(target_buf, str)
935     out_buf = ""
936     # write delta header
937     def encode_size(size):
938         ret = ""
939         c = size & 0x7f
940         size >>= 7
941         while size:
942             ret += chr(c | 0x80)
943             c = size & 0x7f
944             size >>= 7
945         ret += chr(c)
946         return ret
947     out_buf += encode_size(len(base_buf))
948     out_buf += encode_size(len(target_buf))
949     # write out delta opcodes
950     seq = difflib.SequenceMatcher(a=base_buf, b=target_buf)
951     for opcode, i1, i2, j1, j2 in seq.get_opcodes():
952         # Git patch opcodes don't care about deletes!
953         #if opcode == "replace" or opcode == "delete":
954         #    pass
955         if opcode == "equal":
956             # If they are equal, unpacker will use data from base_buf
957             # Write out an opcode that says what range to use
958             scratch = ""
959             op = 0x80
960             o = i1
961             for i in range(4):
962                 if o & 0xff << i*8:
963                     scratch += chr((o >> i*8) & 0xff)
964                     op |= 1 << i
965             s = i2 - i1
966             for i in range(2):
967                 if s & 0xff << i*8:
968                     scratch += chr((s >> i*8) & 0xff)
969                     op |= 1 << (4+i)
970             out_buf += chr(op)
971             out_buf += scratch
972         if opcode == "replace" or opcode == "insert":
973             # If we are replacing a range or adding one, then we just
974             # output it to the stream (prefixed by its size)
975             s = j2 - j1
976             o = j1
977             while s > 127:
978                 out_buf += chr(127)
979                 out_buf += target_buf[o:o+127]
980                 s -= 127
981                 o += 127
982             out_buf += chr(s)
983             out_buf += target_buf[o:o+s]
984     return out_buf
985
986
987 def apply_delta(src_buf, delta):
988     """Based on the similar function in git's patch-delta.c.
989
990     :param src_buf: Source buffer
991     :param delta: Delta instructions
992     """
993     if type(src_buf) != str:
994         src_buf = "".join(src_buf)
995     if type(delta) != str:
996         delta = "".join(delta)
997     out = []
998     index = 0
999     delta_length = len(delta)
1000     def get_delta_header_size(delta, index):
1001         size = 0
1002         i = 0
1003         while delta:
1004             cmd = ord(delta[index])
1005             index += 1
1006             size |= (cmd & ~0x80) << i
1007             i += 7
1008             if not cmd & 0x80:
1009                 break
1010         return size, index
1011     src_size, index = get_delta_header_size(delta, index)
1012     dest_size, index = get_delta_header_size(delta, index)
1013     assert src_size == len(src_buf), "%d vs %d" % (src_size, len(src_buf))
1014     while index < delta_length:
1015         cmd = ord(delta[index])
1016         index += 1
1017         if cmd & 0x80:
1018             cp_off = 0
1019             for i in range(4):
1020                 if cmd & (1 << i):
1021                     x = ord(delta[index])
1022                     index += 1
1023                     cp_off |= x << (i * 8)
1024             cp_size = 0
1025             for i in range(3):
1026                 if cmd & (1 << (4+i)):
1027                     x = ord(delta[index])
1028                     index += 1
1029                     cp_size |= x << (i * 8)
1030             if cp_size == 0:
1031                 cp_size = 0x10000
1032             if (cp_off + cp_size < cp_size or
1033                 cp_off + cp_size > src_size or
1034                 cp_size > dest_size):
1035                 break
1036             out.append(src_buf[cp_off:cp_off+cp_size])
1037         elif cmd != 0:
1038             out.append(delta[index:index+cmd])
1039             index += cmd
1040         else:
1041             raise ApplyDeltaError("Invalid opcode 0")
1042
1043     if index != delta_length:
1044         raise ApplyDeltaError("delta not empty: %r" % delta[index:])
1045
1046     if dest_size != chunks_length(out):
1047         raise ApplyDeltaError("dest size incorrect")
1048
1049     return out
1050
1051
1052 def write_pack_index_v2(filename, entries, pack_checksum):
1053     """Write a new pack index file.
1054
1055     :param filename: The filename of the new pack index file.
1056     :param entries: List of tuples with object name (sha), offset_in_pack, and
1057         crc32_checksum.
1058     :param pack_checksum: Checksum of the pack file.
1059     """
1060     f = GitFile(filename, 'wb')
1061     f = SHA1Writer(f)
1062     f.write('\377tOc') # Magic!
1063     f.write(struct.pack(">L", 2))
1064     fan_out_table = defaultdict(lambda: 0)
1065     for (name, offset, entry_checksum) in entries:
1066         fan_out_table[ord(name[0])] += 1
1067     # Fan-out table
1068     for i in range(0x100):
1069         f.write(struct.pack(">L", fan_out_table[i]))
1070         fan_out_table[i+1] += fan_out_table[i]
1071     for (name, offset, entry_checksum) in entries:
1072         f.write(name)
1073     for (name, offset, entry_checksum) in entries:
1074         f.write(struct.pack(">L", entry_checksum))
1075     for (name, offset, entry_checksum) in entries:
1076         # FIXME: handle if MSBit is set in offset
1077         f.write(struct.pack(">L", offset))
1078     # FIXME: handle table for pack files > 8 Gb
1079     assert len(pack_checksum) == 20
1080     f.write(pack_checksum)
1081     f.close()
1082
1083
1084 class Pack(object):
1085     """A Git pack object."""
1086
1087     def __init__(self, basename):
1088         self._basename = basename
1089         self._data_path = self._basename + ".pack"
1090         self._idx_path = self._basename + ".idx"
1091         self._data = None
1092         self._idx = None
1093
1094     @classmethod
1095     def from_objects(self, data, idx):
1096         """Create a new pack object from pack data and index objects."""
1097         ret = Pack("")
1098         ret._data = data
1099         ret._idx = idx
1100         return ret
1101
1102     def name(self):
1103         """The SHA over the SHAs of the objects in this pack."""
1104         return self.index.objects_sha1()
1105
1106     @property
1107     def data(self):
1108         """The pack data object being used."""
1109         if self._data is None:
1110             self._data = PackData(self._data_path)
1111             assert len(self.index) == len(self._data)
1112             idx_stored_checksum = self.index.get_pack_checksum()
1113             data_stored_checksum = self._data.get_stored_checksum()
1114             if idx_stored_checksum != data_stored_checksum:
1115                 raise ChecksumMismatch(sha_to_hex(idx_stored_checksum),
1116                                        sha_to_hex(data_stored_checksum))
1117         return self._data
1118
1119     @property
1120     def index(self):
1121         """The index being used.
1122
1123         :note: This may be an in-memory index
1124         """
1125         if self._idx is None:
1126             self._idx = load_pack_index(self._idx_path)
1127         return self._idx
1128
1129     def close(self):
1130         if self._data is not None:
1131             self._data.close()
1132         self.index.close()
1133
1134     def __eq__(self, other):
1135         return type(self) == type(other) and self.index == other.index
1136
1137     def __len__(self):
1138         """Number of entries in this pack."""
1139         return len(self.index)
1140
1141     def __repr__(self):
1142         return "%s(%r)" % (self.__class__.__name__, self._basename)
1143
1144     def __iter__(self):
1145         """Iterate over all the sha1s of the objects in this pack."""
1146         return iter(self.index)
1147
1148     def check(self):
1149         """Check the integrity of this pack."""
1150         if not self.index.check():
1151             return False
1152         if not self.data.check():
1153             return False
1154         return True
1155
1156     def get_stored_checksum(self):
1157         return self.data.get_stored_checksum()
1158
1159     def __contains__(self, sha1):
1160         """Check whether this pack contains a particular SHA1."""
1161         try:
1162             self.index.object_index(sha1)
1163             return True
1164         except KeyError:
1165             return False
1166
1167     def get_raw(self, sha1, resolve_ref=None):
1168         offset = self.index.object_index(sha1)
1169         obj_type, obj = self.data.get_object_at(offset)
1170         if type(offset) is long:
1171           offset = int(offset)
1172         if resolve_ref is None:
1173             resolve_ref = self.get_raw
1174         kind, chunks = self.data.resolve_object(offset, obj_type, obj,
1175             resolve_ref)
1176         return kind, "".join(chunks)
1177
1178     def __getitem__(self, sha1):
1179         """Retrieve the specified SHA1."""
1180         type, uncomp = self.get_raw(sha1)
1181         return ShaFile.from_raw_string(type, uncomp)
1182
1183     def iterobjects(self, get_raw=None):
1184         """Iterate over the objects in this pack."""
1185         if get_raw is None:
1186             get_raw = self.get_raw
1187         for offset, type, obj, crc32 in self.data.iterobjects():
1188             assert isinstance(offset, int)
1189             type, obj = self.data.resolve_object(offset, type, obj, get_raw)
1190             yield ShaFile.from_raw_chunks(type, obj)
1191
1192
1193 try:
1194     from dulwich._pack import apply_delta, bisect_find_sha
1195 except ImportError:
1196     pass