Making backup-dir-dels depend on backup-deleted.
[rsync-patches.git] / link-by-hash.diff
index 9690fab9e54259546dcfedf81a9317dc8006a589..ae06c75a679f20b300b383f66a44f98577f1d7f4 100644 (file)
@@ -1,30 +1,54 @@
-After applying this patch, run these commands for a successful build:
-
-    ./prepare-source
-    ./configure                      (optional if already run)
-    make
-
-Jason M. Felice writes:
+Jason M. Felice wrote:
 
 This patch adds the --link-by-hash=DIR option, which hard links received
 files in a link farm arranged by MD4 file hash.  The result is that the system
 will only store one copy of the unique contents of each file, regardless of
 the file's name.
 
+To use this patch, run these commands for a successful build:
+
+    patch -p1 <patches/link-by-hash.diff
+    ./prepare-source
+    ./configure
+    make
 
---- old/Makefile.in
-+++ new/Makefile.in
-@@ -34,7 +34,7 @@ OBJS1=rsync.o generator.o receiver.o cle
-       main.o checksum.o match.o syscall.o log.o backup.o
- OBJS2=options.o flist.o io.o compat.o hlink.o token.o uidlist.o socket.o \
-       fileio.o batch.o clientname.o chmod.o
+based-on: 28b519c93b6db30b6520d46f8cd65160213fddd2
+diff --git a/Makefile.in b/Makefile.in
+--- a/Makefile.in
++++ b/Makefile.in
+@@ -37,7 +37,7 @@ OBJS1=flist.o rsync.o generator.o receiver.o cleanup.o sender.o exclude.o \
+       util.o main.o checksum.o match.o syscall.o log.o backup.o delete.o
+ OBJS2=options.o io.o compat.o hlink.o token.o uidlist.o socket.o hashtable.o \
+       fileio.o batch.o clientname.o chmod.o acls.o xattrs.o
 -OBJS3=progress.o pipe.o
 +OBJS3=progress.o pipe.o hashlink.o
  DAEMON_OBJ = params.o loadparm.o clientserver.o access.o connection.o authenticate.o
  popt_OBJS=popt/findme.o  popt/popt.o  popt/poptconfig.o \
        popt/popthelp.o popt/poptparse.o
---- old/hashlink.c
-+++ new/hashlink.c
+diff --git a/flist.c b/flist.c
+--- a/flist.c
++++ b/flist.c
+@@ -72,6 +72,7 @@ extern int unsort_ndx;
+ extern uid_t our_uid;
+ extern struct stats stats;
+ extern char *filesfrom_host;
++extern char *link_by_hash_dir;
+ extern char *usermap, *groupmap;
+ extern char curr_dir[MAXPATHLEN];
+@@ -910,7 +911,7 @@ static struct file_struct *recv_file_entry(int f, struct file_list *flist, int x
+               extra_len += EXTRA_LEN;
+ #endif
+-      if (always_checksum && S_ISREG(mode))
++      if ((always_checksum || link_by_hash_dir) && S_ISREG(mode))
+               extra_len += SUM_EXTRA_CNT * EXTRA_LEN;
+ #if SIZEOF_INT64 >= 8
+diff --git a/hashlink.c b/hashlink.c
+new file mode 100644
+--- /dev/null
++++ b/hashlink.c
 @@ -0,0 +1,339 @@
 +/*
 +   Copyright (C) Cronosys, LLC 2004
@@ -50,16 +74,14 @@ the file's name.
 +
 +extern char *link_by_hash_dir;
 +
-+#if HAVE_LINK
++#ifdef HAVE_LINK
 +
-+charmake_hash_name(struct file_struct *file)
++char *make_hash_name(struct file_struct *file)
 +{
 +      char hash[33], *dst;
-+      unsigned char *src;
-+      unsigned char c;
++      uchar c, *src = (uchar*)F_SUM(file);
 +      int i;
 +
-+      src = (unsigned char*)file->u.sum;
 +      for (dst = hash, i = 0; i < 4; i++, src++) {
 +              c = *src >> 4;
 +              *(dst++) = (c >= 10) ? (c - 10 + 'a') : (c + '0');
@@ -75,7 +97,8 @@ the file's name.
 +      }
 +      *dst = 0;
 +
-+      asprintf(&dst,"%s/%s",link_by_hash_dir,hash);
++      if (asprintf(&dst,"%s/%s",link_by_hash_dir,hash) < 0)
++              out_of_memory("make_hash_name");
 +      return dst;
 +}
 +
@@ -132,8 +155,8 @@ the file's name.
 +                      *fnbr = this_fnbr;
 +
 +              hashfile = new_array(struct hashfile_struct, 1);
-+              asprintf(&hashfile->name,"%s/%s",hashname,
-+                       di->d_name);
++              if (asprintf(&hashfile->name,"%s/%s",hashname, di->d_name) < 0)
++                      out_of_memory("find_hashfiles");
 +              if (do_stat(hashfile->name,&st) == -1) {
 +                      rsyserr(FERROR, errno, "stat failed: %s", hashfile->name);
 +                      kill_hashfile(hashfile);
@@ -247,7 +270,7 @@ the file's name.
 +}
 +
 +
-+int link_by_hash(char *fnametmp,char *fname,struct file_struct *file)
++int link_by_hash(const char *fnametmp, const char *fname, struct file_struct *file)
 +{
 +      STRUCT_STAT st;
 +      char *hashname = make_hash_name(file);
@@ -255,7 +278,7 @@ the file's name.
 +      char *linkname;
 +      long last_fnbr;
 +
-+      if (file->length == 0)
++      if (F_LENGTH(file) == 0)
 +              return robust_rename(fnametmp, fname, NULL, 0644);
 +
 +      if (do_stat(hashname, &st) == -1) {
@@ -279,7 +302,8 @@ the file's name.
 +              }
 +
 +              first = 1;
-+              asprintf(&linkname,"%s/0",hashname);
++              if (asprintf(&linkname,"%s/0",hashname) < 0)
++                      out_of_memory("link_by_hash");
 +              rprintf(FINFO, "(1) linkname = %s\n", linkname);
 +      } else {
 +              struct hashfile_struct *hashfiles, *hashfile;
@@ -292,7 +316,8 @@ the file's name.
 +
 +              if (hashfiles == NULL) {
 +                      first = 1;
-+                      asprintf(&linkname,"%s/0",hashname);
++                      if (asprintf(&linkname,"%s/0",hashname) < 0)
++                              out_of_memory("link_by_hash");
 +                      rprintf(FINFO, "(2) linkname = %s\n", linkname);
 +              } else {
 +                      int fd;
@@ -313,8 +338,8 @@ the file's name.
 +                              kill_hashfile(hashfile);
 +                      } else {
 +                              first = 1;
-+                              asprintf(&linkname, "%s/%ld", hashname,
-+                                       last_fnbr + 1);
++                              if (asprintf(&linkname, "%s/%ld", hashname, last_fnbr + 1) < 0)
++                                      out_of_memory("link_by_hash");
 +                              rprintf(FINFO, "(4) linkname = %s\n", linkname);
 +                      }
 +              }
@@ -329,8 +354,8 @@ the file's name.
 +                      if (errno == EMLINK) {
 +                              first = 1;
 +                              free(linkname);
-+                              asprintf(&linkname,"%s/%ld",hashname,
-+                                       last_fnbr + 1);
++                              if (asprintf(&linkname,"%s/%ld",hashname, last_fnbr + 1) < 0)
++                                      out_of_memory("link_by_hash");
 +                              rprintf(FINFO, "(5) linkname = %s\n", linkname);
 +                              rprintf(FINFO,"link-by-hash: max link count exceeded, starting new file \"%s\".\n", linkname);
 +                      } else {
@@ -363,52 +388,52 @@ the file's name.
 +      free(hashname);
 +      return rc;
 +}
-+
 +#endif
---- old/options.c
-+++ new/options.c
-@@ -144,6 +144,7 @@ char *backup_suffix = NULL;
+diff --git a/options.c b/options.c
+--- a/options.c
++++ b/options.c
+@@ -159,6 +159,7 @@ char *backup_suffix = NULL;
  char *tmpdir = NULL;
  char *partial_dir = NULL;
  char *basis_dir[MAX_BASIS_DIRS+1];
 +char *link_by_hash_dir = NULL;
  char *config_file = NULL;
  char *shell_cmd = NULL;
- char *log_format = NULL;
-@@ -337,6 +338,7 @@ void usage(enum logcode F)
+ char *logfile_name = NULL;
+@@ -758,6 +759,7 @@ void usage(enum logcode F)
    rprintf(F,"     --compare-dest=DIR      also compare destination files relative to DIR\n");
    rprintf(F,"     --copy-dest=DIR         ... and include copies of unchanged files\n");
    rprintf(F,"     --link-dest=DIR         hardlink to files in DIR when unchanged\n");
 +  rprintf(F,"     --link-by-hash=DIR      create hardlinks by hash into DIR\n");
    rprintf(F," -z, --compress              compress file data during the transfer\n");
    rprintf(F,"     --compress-level=NUM    explicitly set compression level\n");
-   rprintf(F," -C, --cvs-exclude           auto-ignore files the same way CVS does\n");
-@@ -383,7 +385,7 @@ enum {OPT_VERSION = 1000, OPT_DAEMON, OP
+   rprintf(F,"     --skip-compress=LIST    skip compressing files with a suffix in LIST\n");
+@@ -810,7 +812,7 @@ enum {OPT_VERSION = 1000, OPT_DAEMON, OPT_SENDER, OPT_EXCLUDE, OPT_EXCLUDE_FROM,
        OPT_FILTER, OPT_COMPARE_DEST, OPT_COPY_DEST, OPT_LINK_DEST, OPT_HELP,
        OPT_INCLUDE, OPT_INCLUDE_FROM, OPT_MODIFY_WINDOW, OPT_MIN_SIZE, OPT_CHMOD,
        OPT_READ_BATCH, OPT_WRITE_BATCH, OPT_ONLY_WRITE_BATCH, OPT_MAX_SIZE,
--      OPT_NO_D,
-+      OPT_NO_D, OPT_LINK_BY_HASH,
+-      OPT_NO_D, OPT_APPEND, OPT_NO_ICONV, OPT_INFO, OPT_DEBUG,
++      OPT_NO_D, OPT_APPEND, OPT_NO_ICONV, OPT_INFO, OPT_DEBUG, OPT_LINK_BY_HASH,
+       OPT_USERMAP, OPT_GROUPMAP, OPT_CHOWN, OPT_BWLIMIT,
        OPT_SERVER, OPT_REFUSED_BASE = 9000};
  
- static struct poptOption long_options[] = {
-@@ -477,6 +479,7 @@ static struct poptOption long_options[] 
+@@ -954,6 +956,7 @@ static struct poptOption long_options[] = {
    {"compare-dest",     0,  POPT_ARG_STRING, 0, OPT_COMPARE_DEST, 0, 0 },
    {"copy-dest",        0,  POPT_ARG_STRING, 0, OPT_COPY_DEST, 0, 0 },
    {"link-dest",        0,  POPT_ARG_STRING, 0, OPT_LINK_DEST, 0, 0 },
 +  {"link-by-hash",     0,  POPT_ARG_STRING, 0, OPT_LINK_BY_HASH, 0, 0},
-   {"fuzzy",           'y', POPT_ARG_NONE,   &fuzzy_basis, 0, 0, 0 },
-   {"compress",        'z', POPT_ARG_NONE,   0, 'z', 0, 0 },
-   {"compress-level",   0,  POPT_ARG_INT,    &def_compress_level, 'z', 0, 0 },
-@@ -1062,6 +1065,21 @@ int parse_arguments(int *argc, const cha
-                       usage(FINFO);
-                       exit_cleanup(0);
+   {"fuzzy",           'y', POPT_ARG_VAL,    &fuzzy_basis, 1, 0, 0 },
+   {"no-fuzzy",         0,  POPT_ARG_VAL,    &fuzzy_basis, 0, 0, 0 },
+   {"no-y",             0,  POPT_ARG_VAL,    &fuzzy_basis, 0, 0, 0 },
+@@ -1780,6 +1783,21 @@ int parse_arguments(int *argc_p, const char ***argv_p)
+                       return 0;
+ #endif
  
 +                case OPT_LINK_BY_HASH:
-+#if HAVE_LINK
++#ifdef HAVE_LINK
 +                      arg = poptGetOptArg(pc);
 +                      if (sanitize_paths)
-+                              arg = sanitize_path(NULL, arg, NULL, 0);
++                              arg = sanitize_path(NULL, arg, NULL, 0, SP_DEFAULT);
 +                      link_by_hash_dir = (char *)arg;
 +                      break;
 +#else
@@ -422,9 +447,9 @@ the file's name.
                default:
                        /* A large opt value means that set_refuse_options()
                         * turned this option off. */
-@@ -1710,6 +1728,11 @@ void server_options(char **args,int *arg
-               }
-       }
+@@ -2662,6 +2680,11 @@ void server_options(char **args, int *argc_p)
+       } else if (inplace)
+               args[ac++] = "--inplace";
  
 +      if (link_by_hash_dir && am_sender) {
 +              args[ac++] = "--link-by-hash";
@@ -434,32 +459,25 @@ the file's name.
        if (files_from && (!am_sender || filesfrom_host)) {
                if (filesfrom_host) {
                        args[ac++] = "--files-from";
---- old/receiver.c
-+++ new/receiver.c
-@@ -53,6 +53,7 @@ extern int delay_updates;
- extern struct stats stats;
- extern char *log_format;
- extern char *tmpdir;
-+extern char *link_by_hash_dir;
- extern char *partial_dir;
- extern char *basis_dir[];
- extern struct file_list *the_file_list;
-@@ -124,12 +125,13 @@ static int get_tmpname(char *fnametmp, c
+diff --git a/receiver.c b/receiver.c
+--- a/receiver.c
++++ b/receiver.c
+@@ -217,11 +217,13 @@ int open_tmpfile(char *fnametmp, const char *fname, struct file_struct *file)
+ }
  
  static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
--                      char *fname, int fd, OFF_T total_size)
-+                      char *fname, int fd, OFF_T total_size, char *md4)
+-                      const char *fname, int fd, OFF_T total_size)
++                      const char *fname, int fd, OFF_T total_size,
++                      const char *md4)
  {
-       static char file_sum1[MD4_SUM_LENGTH];
-       static char file_sum2[MD4_SUM_LENGTH];
+       static char file_sum1[MAX_DIGEST_LEN];
        struct map_struct *mapbuf;
        struct sum_struct sum;
-+      struct mdfour mdfour_data;
++      md_context mdfour_data;
        int32 len;
        OFF_T offset = 0;
        OFF_T offset2;
-@@ -149,6 +151,9 @@ static int receive_data(int f_in, char *
+@@ -257,6 +259,9 @@ static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
        } else
                mapbuf = NULL;
  
@@ -468,8 +486,8 @@ the file's name.
 +
        sum_init(checksum_seed);
  
-       if (append_mode) {
-@@ -191,6 +196,8 @@ static int receive_data(int f_in, char *
+       if (append_mode > 0) {
+@@ -304,6 +309,8 @@ static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
                        cleanup_got_literal = 1;
  
                        sum_update(data, i);
@@ -478,7 +496,7 @@ the file's name.
  
                        if (fd != -1 && write_file(fd,data,i) != i)
                                goto report_write_error;
-@@ -217,6 +224,8 @@ static int receive_data(int f_in, char *
+@@ -331,6 +338,8 @@ static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
  
                        see_token(map, len);
                        sum_update(map, len);
@@ -486,17 +504,18 @@ the file's name.
 +                              mdfour_update(&mdfour_data, (uchar*)map, len);
                }
  
-               if (inplace) {
-@@ -257,6 +266,8 @@ static int receive_data(int f_in, char *
-       }
+               if (updating_basis_or_equiv) {
+@@ -384,6 +393,9 @@ static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
+       if (sum_end(file_sum1) != checksum_len)
+               overflow_exit("checksum_len"); /* Impossible... */
  
-       sum_end(file_sum1);
 +      if (md4)
-+              mdfour_result(&mdfour_data, (unsigned char*)md4);
++              mdfour_result(&mdfour_data, (uchar*)md4);
++
        if (mapbuf)
                unmap_file(mapbuf);
-@@ -272,7 +283,7 @@ static int receive_data(int f_in, char *
+@@ -398,7 +410,7 @@ static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
  
  static void discard_receive_data(int f_in, OFF_T length)
  {
@@ -504,53 +523,46 @@ the file's name.
 +      receive_data(f_in, NULL, -1, 0, NULL, -1, length, NULL);
  }
  
- static void handle_delayed_updates(struct file_list *flist, char *local_name)
-@@ -604,8 +615,12 @@ int recv_files(int f_in, struct file_lis
-                       rprintf(FINFO, "%s\n", fname);
+ static void handle_delayed_updates(char *local_name)
+@@ -828,7 +840,7 @@ int recv_files(int f_in, int f_out, char *local_name)
  
                /* recv file data */
-+#if HAVE_LINK
-+              if (link_by_hash_dir)
-+                      file->u.sum = new_array(char, MD4_SUM_LENGTH);
-+#endif
                recv_ok = receive_data(f_in, fnamecmp, fd1, st.st_size,
--                                     fname, fd2, file->length);
-+                                     fname, fd2, file->length, file->u.sum);
+-                                     fname, fd2, F_LENGTH(file));
++                                     fname, fd2, F_LENGTH(file), F_SUM(file));
+               log_item(log_code, file, iflags, NULL);
  
-               if (!log_before_transfer)
-                       log_item(file, &initial_stats, iflags, NULL);
---- old/rsync.c
-+++ new/rsync.c
-@@ -49,6 +49,7 @@ extern int inplace;
+diff --git a/rsync.c b/rsync.c
+--- a/rsync.c
++++ b/rsync.c
+@@ -47,6 +47,7 @@ extern int flist_eof;
+ extern int file_old_total;
  extern int keep_dirlinks;
  extern int make_backups;
- extern mode_t orig_umask;
 +extern char *link_by_hash_dir;
- extern struct stats stats;
+ extern struct file_list *cur_flist, *first_flist, *dir_flist;
  extern struct chmod_mode_struct *daemon_chmod_modes;
-@@ -269,8 +270,15 @@ void finish_transfer(char *fname, char *
+ #ifdef ICONV_OPTION
+@@ -648,7 +649,12 @@ int finish_transfer(const char *fname, const char *fnametmp,
        /* move tmp file over real file */
-       if (verbose > 2)
+       if (DEBUG_GTE(RECV, 1))
                rprintf(FINFO, "renaming %s to %s\n", fnametmp, fname);
--      ret = robust_rename(fnametmp, fname, partialptr,
--                          file->mode & INITACCESSPERMS);
-+#if HAVE_LINK
+-      ret = robust_rename(fnametmp, fname, temp_copy_name, file->mode);
++#ifdef HAVE_LINK
 +      if (link_by_hash_dir)
 +              ret = link_by_hash(fnametmp, fname, file);
 +      else
 +#endif
-+      {
-+              ret = robust_rename(fnametmp, fname, partialptr,
-+                                  file->mode & INITACCESSPERMS);
-+      }
++              ret = robust_rename(fnametmp, fname, temp_copy_name, file->mode);
        if (ret < 0) {
-               rsyserr(FERROR, errno, "%s %s -> \"%s\"",
+               rsyserr(FERROR_XFER, errno, "%s %s -> \"%s\"",
                        ret == -2 ? "copy" : "rename",
---- old/rsync.h
-+++ new/rsync.h
-@@ -640,6 +640,14 @@ struct stats {
-       int current_file_index;
+diff --git a/rsync.h b/rsync.h
+--- a/rsync.h
++++ b/rsync.h
+@@ -899,6 +899,14 @@ struct stats {
+       int xferred_files;
  };
  
 +struct hashfile_struct {
@@ -563,14 +575,15 @@ the file's name.
 +
  struct chmod_mode_struct;
  
- #include "byteorder.h"
---- old/rsync.yo
-+++ new/rsync.yo
-@@ -363,6 +363,7 @@ to the detailed description below for a 
+ struct flist_ndx_item {
+diff --git a/rsync.yo b/rsync.yo
+--- a/rsync.yo
++++ b/rsync.yo
+@@ -402,6 +402,7 @@ to the detailed description below for a complete description.  verb(
       --compare-dest=DIR      also compare received files relative to DIR
       --copy-dest=DIR         ... and include copies of unchanged files
       --link-dest=DIR         hardlink to files in DIR when unchanged
 +     --link-by-hash=DIR      create hardlinks by hash into DIR
   -z, --compress              compress file data during the transfer
       --compress-level=NUM    explicitly set compression level
-  -C, --cvs-exclude           auto-ignore files in the same way CVS does
+      --skip-compress=LIST    skip compressing files with suffix in LIST