s3 OneFS: Add an atomic sendfile implementation
[tprouty/samba.git] / source3 / modules / onefs_system.c
1 /*
2  * Unix SMB/CIFS implementation.
3  * Support for OneFS system interfaces.
4  *
5  * Copyright (C) Tim Prouty, 2008
6  *
7  * This program is free software; you can redistribute it and/or modify
8  * it under the terms of the GNU General Public License as published by
9  * the Free Software Foundation; either version 3 of the License, or
10  * (at your option) any later version.
11  *
12  * This program is distributed in the hope that it will be useful,
13  * but WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15  * GNU General Public License for more details.
16  *
17  * You should have received a copy of the GNU General Public License
18  * along with this program; if not, see <http://www.gnu.org/licenses/>.
19  */
20
21 #include "onefs.h"
22
23 #include <ifs/ifs_syscalls.h>
24 #include <isi_acl/isi_acl_util.h>
25
26 /*
27  * Initialize the sm_lock struct before passing it to ifs_createfile.
28  */
29 static void smlock_init(connection_struct *conn, struct sm_lock *sml,
30     bool isexe, uint32_t access_mask, uint32_t share_access,
31     uint32_t create_options)
32 {
33         sml->sm_type.doc = false;
34         sml->sm_type.isexe = isexe;
35         sml->sm_type.statonly = is_stat_open(access_mask);
36         sml->sm_type.access_mask = access_mask;
37         sml->sm_type.share_access = share_access;
38
39         /*
40          * private_options was previously used for DENY_DOS/DENY_FCB checks in
41          * the kernel, but are now properly handled by fcb_or_dos_open. In
42          * these cases, ifs_createfile will return a sharing violation, which
43          * gives fcb_or_dos_open the chance to open a duplicate file handle.
44          */
45         sml->sm_type.private_options = 0;
46
47         /* 1 second delay is handled in onefs_open.c by deferring the open */
48         sml->sm_timeout = timeval_set(0, 0);
49 }
50
51 static void smlock_dump(int debuglevel, const struct sm_lock *sml)
52 {
53         if (sml == NULL) {
54                 DEBUG(debuglevel, ("sml == NULL\n"));
55                 return;
56         }
57
58         DEBUG(debuglevel,
59               ("smlock: doc=%s, isexec=%s, statonly=%s, access_mask=0x%x, "
60                "share_access=0x%x, private_options=0x%x timeout=%d/%d\n",
61                sml->sm_type.doc ? "True" : "False",
62                sml->sm_type.isexe ? "True" : "False",
63                sml->sm_type.statonly ? "True" : "False",
64                sml->sm_type.access_mask,
65                sml->sm_type.share_access,
66                sml->sm_type.private_options,
67                (int)sml->sm_timeout.tv_sec,
68                (int)sml->sm_timeout.tv_usec));
69 }
70
71 /**
72  * External interface to ifs_createfile
73  */
74 int onefs_sys_create_file(connection_struct *conn,
75                           int base_fd,
76                           const char *path,
77                           uint32_t access_mask,
78                           uint32_t open_access_mask,
79                           uint32_t share_access,
80                           uint32_t create_options,
81                           int flags,
82                           mode_t mode,
83                           int oplock_request,
84                           uint64_t id,
85                           struct security_descriptor *sd,
86                           uint32_t dos_flags,
87                           int *granted_oplock)
88 {
89         struct sm_lock sml, *psml = NULL;
90         enum oplock_type onefs_oplock;
91         enum oplock_type onefs_granted_oplock = OPLOCK_NONE;
92         struct ifs_security_descriptor ifs_sd = {}, *pifs_sd = NULL;
93         int secinfo = 0;
94         int ret_fd = -1;
95         uint32_t onefs_dos_attributes;
96         struct ifs_createfile_flags cf_flags = CF_FLAGS_NONE;
97
98         /* Setup security descriptor and get secinfo. */
99         if (sd != NULL) {
100                 NTSTATUS status;
101
102                 secinfo = (get_sec_info(sd) & IFS_SEC_INFO_KNOWN_MASK);
103
104                 status = onefs_samba_sd_to_sd(secinfo, sd, &ifs_sd, SNUM(conn));
105
106                 if (!NT_STATUS_IS_OK(status)) {
107                         DEBUG(1, ("SD initialization failure: %s",
108                                   nt_errstr(status)));
109                         errno = EINVAL;
110                         goto out;
111                 }
112
113                 pifs_sd = &ifs_sd;
114         }
115
116         /* Stripping off private bits will be done for us. */
117         onefs_oplock = onefs_samba_oplock_to_oplock(oplock_request);
118
119         if (!lp_oplocks(SNUM(conn))) {
120                 SMB_ASSERT(onefs_oplock == OPLOCK_NONE);
121         }
122
123         /* Convert samba dos flags to UF_DOS_* attributes. */
124         onefs_dos_attributes = dos_attributes_to_stat_dos_flags(dos_flags);
125
126         /**
127          * Deal with kernel creating Default ACLs. (Isilon bug 47447.)
128          *
129          * 1) "nt acl support = no", default_acl = no
130          * 2) "inherit permissions = yes", default_acl = no
131          */
132         if (lp_nt_acl_support(SNUM(conn)) && !lp_inherit_perms(SNUM(conn)))
133                 cf_flags = cf_flags_or(cf_flags, CF_FLAGS_DEFAULT_ACL);
134
135         DEBUG(10,("onefs_sys_create_file: base_fd = %d, "
136                   "open_access_mask = 0x%x, flags = 0x%x, mode = 0%o, "
137                   "desired_oplock = %s, id = 0x%x, secinfo = 0x%x, sd = %p, "
138                   "dos_attributes = 0x%x, path = %s, "
139                   "default_acl=%s\n", base_fd,
140                   (unsigned int)open_access_mask,
141                   (unsigned int)flags,
142                   (unsigned int)mode,
143                   onefs_oplock_str(onefs_oplock),
144                   (unsigned int)id,
145                   (unsigned int)secinfo, sd,
146                   (unsigned int)onefs_dos_attributes, path,
147                   cf_flags_and_bool(cf_flags, CF_FLAGS_DEFAULT_ACL) ?
148                       "true" : "false"));
149
150         /* Initialize smlock struct for files/dirs but not internal opens */
151         if (!(oplock_request & INTERNAL_OPEN_ONLY)) {
152                 smlock_init(conn, &sml, is_executable(path), access_mask,
153                     share_access, create_options);
154                 psml = &sml;
155         }
156
157         smlock_dump(10, psml);
158
159         ret_fd = ifs_createfile(base_fd, path,
160             (enum ifs_ace_rights)open_access_mask, flags & ~O_ACCMODE, mode,
161             onefs_oplock, id, psml, secinfo, pifs_sd, onefs_dos_attributes,
162             cf_flags, &onefs_granted_oplock);
163
164         DEBUG(10,("onefs_sys_create_file(%s): ret_fd = %d, "
165                   "onefs_granted_oplock = %s\n",
166                   ret_fd < 0 ? strerror(errno) : "success", ret_fd,
167                   onefs_oplock_str(onefs_granted_oplock)));
168
169         if (granted_oplock) {
170                 *granted_oplock =
171                     onefs_oplock_to_samba_oplock(onefs_granted_oplock);
172         }
173
174  out:
175         aclu_free_sd(pifs_sd, false);
176
177         return ret_fd;
178 }
179
180 /**
181  * FreeBSD based sendfile implementation that allows for atomic semantics.
182  */
183 static ssize_t onefs_sys_do_sendfile(int tofd, int fromfd,
184     const DATA_BLOB *header, SMB_OFF_T offset, size_t count, bool atomic)
185 {
186         size_t total=0;
187         struct sf_hdtr hdr;
188         struct iovec hdtrl;
189         size_t hdr_len = 0;
190         int flags = 0;
191
192         if (atomic) {
193                 flags = SF_ATOMIC;
194         }
195
196         hdr.headers = &hdtrl;
197         hdr.hdr_cnt = 1;
198         hdr.trailers = NULL;
199         hdr.trl_cnt = 0;
200
201         /* Set up the header iovec. */
202         if (header) {
203                 hdtrl.iov_base = header->data;
204                 hdtrl.iov_len = hdr_len = header->length;
205         } else {
206                 hdtrl.iov_base = NULL;
207                 hdtrl.iov_len = 0;
208         }
209
210         total = count;
211         while (total + hdtrl.iov_len) {
212                 SMB_OFF_T nwritten;
213                 int ret;
214
215                 /*
216                  * FreeBSD sendfile returns 0 on success, -1 on error.
217                  * Remember, the tofd and fromfd are reversed..... :-).
218                  * nwritten includes the header data sent.
219                  */
220
221                 do {
222                         ret = sendfile(fromfd, tofd, offset, total, &hdr,
223                                        &nwritten, flags);
224                 } while (ret == -1 && errno == EINTR);
225
226                 /* On error we're done. */
227                 if (ret == -1) {
228                         return -1;
229                 }
230
231                 /*
232                  * If this was an ATOMIC sendfile, nwritten doesn't
233                  * necessarily indicate an error.  It could mean count > than
234                  * what sendfile can handle atomically (usually 64K) or that
235                  * there was a short read due to the file being truncated.
236                  */
237                 if (nwritten == 0) {
238                         return atomic ? 0 : -1;
239                 }
240
241                 /*
242                  * An atomic sendfile should never send partial data!
243                  */
244                 if (atomic && nwritten != total + hdtrl.iov_len) {
245                         DEBUG(0,("Atomic sendfile() sent partial data: "
246                                  "%llu of %d\n", nwritten,
247                                  total + hdtrl.iov_len));
248                         return -1;
249                 }
250
251                 /*
252                  * If this was a short (signal interrupted) write we may need
253                  * to subtract it from the header data, or null out the header
254                  * data altogether if we wrote more than hdtrl.iov_len bytes.
255                  * We change nwritten to be the number of file bytes written.
256                  */
257
258                 if (hdtrl.iov_base && hdtrl.iov_len) {
259                         if (nwritten >= hdtrl.iov_len) {
260                                 nwritten -= hdtrl.iov_len;
261                                 hdtrl.iov_base = NULL;
262                                 hdtrl.iov_len = 0;
263                         } else {
264                                 hdtrl.iov_base =
265                                     (caddr_t)hdtrl.iov_base + nwritten;
266                                 hdtrl.iov_len -= nwritten;
267                                 nwritten = 0;
268                         }
269                 }
270                 total -= nwritten;
271                 offset += nwritten;
272         }
273         return count + hdr_len;
274 }
275
276 /**
277  * Handles the subtleties of using sendfile with CIFS.
278  */
279 ssize_t onefs_sys_sendfile(connection_struct *conn, int tofd, int fromfd,
280                            const DATA_BLOB *header, SMB_OFF_T offset,
281                            size_t count)
282 {
283         bool atomic = false;
284         ssize_t ret = 0;
285
286         if (lp_parm_bool(SNUM(conn), PARM_ONEFS_TYPE,
287                          PARM_ATOMIC_SENDFILE,
288                          PARM_ATOMIC_SENDFILE_DEFAULT)) {
289                 atomic = true;
290         }
291
292         /* Try the sendfile */
293         ret = onefs_sys_do_sendfile(tofd, fromfd, header, offset, count,
294                                     atomic);
295
296         /* If the sendfile wasn't atomic, we're done. */
297         if (!atomic) {
298                 DEBUG(10, ("non-atomic sendfile read %ul bytes", ret));
299                 return ret;
300         }
301
302         /*
303          * Atomic sendfile takes care to not write anything to the socket
304          * until all of the requested bytes have been read from the file.
305          * There are two atomic cases that need to be handled.
306          *
307          *  1. The file was truncated causing less data to be read than was
308          *     requested.  In this case, we return back to the caller to
309          *     indicate 0 bytes were written to the socket.  This should
310          *     prompt the caller to fallback to the standard read path: read
311          *     the data, create a header that indicates how many bytes were
312          *     actually read, and send the header/data back to the client.
313          *
314          *     This saves us from standard sendfile behavior of sending a
315          *     header promising more data then will actually be sent.  The
316          *     only two options are to close the socket and kill the client
317          *     connection, or write a bunch of 0s.  Closing the client
318          *     connection is bad because there could actually be multiple
319          *     sessions multiplexed from the same client that are all dropped
320          *     because of a truncate.  Writing the remaining data as 0s also
321          *     isn't good, because the client will have an incorrect version
322          *     of the file.  If the file is written back to the server, the 0s
323          *     will be written back.  Fortunately, atomic sendfile allows us
324          *     to avoid making this choice in most cases.
325          *
326          *  2. One downside of atomic sendfile, is that there is a limit on
327          *     the number of bytes that can be sent atomically.  The kernel
328          *     has a limited amount of mbuf space that it can read file data
329          *     into without exhausting the system's mbufs, so a buffer of
330          *     length xfsize is used.  The xfsize at the time of writing this
331          *     is 64K.  xfsize bytes are read from the file, and subsequently
332          *     written to the socket.  This makes it impossible to do the
333          *     sendfile atomically for a byte count > xfsize.
334          *
335          *     To cope with large requests, atomic sendfile returns -1 with
336          *     errno set to E2BIG.  Since windows maxes out at 64K writes,
337          *     this is currently only a concern with non-windows clients.
338          *     Posix extensions allow the full 24bit bytecount field to be
339          *     used in ReadAndX, and clients such as smbclient and the linux
340          *     cifs client can request up to 16MB reads!  There are a few
341          *     options for handling large sendfile requests.
342          *
343          *      a. Fall back to the standard read path.  This is unacceptable
344          *         because it would require prohibitively large mallocs.
345          *
346          *      b. Fall back to using samba's fake_send_file which emulates
347          *         the kernel sendfile in userspace.  This still has the same
348          *         problem of sending the header before all of the data has
349          *         been read, so it doesn't buy us anything, and has worse
350          *         performance than the kernel's zero-copy sendfile.
351          *
352          *      c. Use non-atomic sendfile syscall to attempt a zero copy
353          *         read, and hope that there isn't a short read due to
354          *         truncation.  In the case of a short read, there are two
355          *         options:
356          *
357          *          1. Kill the client connection
358          *
359          *          2. Write zeros to the socket for the remaining bytes
360          *             promised in the header.
361          *
362          *         It is safer from a data corruption perspective to kill the
363          *         client connection, so this is our default behavior, but if
364          *         this causes problems this can be configured to write zeros
365          *         via smb.conf.
366          */
367
368         /* Handle case 1: short read -> truncated file. */
369         if (ret == 0) {
370                 return ret;
371         }
372
373         /* Handle case 2: large read. */
374         if (ret == -1 && errno == E2BIG) {
375
376                 if (!lp_parm_bool(SNUM(conn), PARM_ONEFS_TYPE,
377                                  PARM_SENDFILE_LARGE_READS,
378                                  PARM_SENDFILE_LARGE_READS_DEFAULT)) {
379                         DEBUG(3, ("Not attempting non-atomic large sendfile: "
380                                   "%lu bytes\n", count));
381                         return 0;
382                 }
383
384                 if (count < 0x10000) {
385                         DEBUG(0, ("Count < 2^16 and E2BIG was returned! %lu",
386                                   count));
387                 }
388
389                 DEBUG(10, ("attempting non-atomic large sendfile: %lu bytes\n",
390                            count));
391
392                 /* Try a non-atomic sendfile. */
393                 ret = onefs_sys_do_sendfile(tofd, fromfd, header, offset,
394                                             count, false);
395                 /* Real error: kill the client connection. */
396                 if (ret == -1) {
397                         DEBUG(1, ("error on non-atomic large sendfile "
398                                   "(%lu bytes): %s\n", count,
399                                   strerror(errno)));
400                         return ret;
401                 }
402
403                 /* Short read: kill the client connection. */
404                 if (ret != count + header->length) {
405                         DEBUG(1, ("short read on non-atomic large sendfile "
406                                   "(%lu of %lu bytes): %s\n", ret, count,
407                                   strerror(errno)));
408
409                         /*
410                          * Returning ret here would cause us to drop into the
411                          * codepath that calls sendfile_short_send, which
412                          * sends the client a bunch of zeros instead.
413                          * Returning -1 kills the connection.
414                          */
415                         if (lp_parm_bool(SNUM(conn), PARM_ONEFS_TYPE,
416                                 PARM_SENDFILE_SAFE,
417                                 PARM_SENDFILE_SAFE_DEFAULT)) {
418                                 return -1;
419                         }
420
421                         return ret;
422                 }
423
424                 DEBUG(10, ("non-atomic large sendfile successful\n"));
425         }
426
427         /* There was error in the atomic sendfile. */
428         if (ret == -1) {
429                 DEBUG(1, ("error on %s sendfile (%lu bytes): %s\n",
430                           atomic ? "atomic" : "non-atomic",
431                           count, strerror(errno)));
432         }
433
434         return ret;
435 }
436
437 /**
438  * Only talloc the spill buffer once (reallocing when necessary).
439  */
440 static char *get_spill_buffer(size_t new_count)
441 {
442         static int cur_count = 0;
443         static char *spill_buffer = NULL;
444
445         /* If a sufficiently sized buffer exists, just return. */
446         if (new_count <= cur_count) {
447                 SMB_ASSERT(spill_buffer);
448                 return spill_buffer;
449         }
450
451         /* Allocate the first time. */
452         if (cur_count == 0) {
453                 SMB_ASSERT(!spill_buffer);
454                 spill_buffer = talloc_array(NULL, char, new_count);
455                 if (spill_buffer) {
456                         cur_count = new_count;
457                 }
458                 return spill_buffer;
459         }
460
461         /* A buffer exists, but it's not big enough, so realloc. */
462         SMB_ASSERT(spill_buffer);
463         spill_buffer = talloc_realloc(NULL, spill_buffer, char, new_count);
464         if (spill_buffer) {
465                 cur_count = new_count;
466         }
467         return spill_buffer;
468 }
469
470 /**
471  * recvfile does zero-copy writes given an fd to write to, and a socket with
472  * some data to write.  If recvfile read more than it was able to write, it
473  * spills the data into a buffer.  After first reading any additional data
474  * from the socket into the buffer, the spill buffer is then written with a
475  * standard pwrite.
476  */
477 ssize_t onefs_sys_recvfile(int fromfd, int tofd, SMB_OFF_T offset,
478                            size_t count)
479 {
480         char *spill_buffer = NULL;
481         bool socket_drained = false;
482         int ret;
483         off_t total_rbytes = 0;
484         off_t total_wbytes = 0;
485         off_t rbytes;
486         off_t wbytes;
487
488         DEBUG(10,("onefs_recvfile: from = %d, to = %d, offset=%llu, count = "
489                   "%lu\n", fromfd, tofd, offset, count));
490
491         if (count == 0) {
492                 return 0;
493         }
494
495         /*
496          * Setup up a buffer for recvfile to spill data that has been read
497          * from the socket but not written.
498          */
499         spill_buffer = get_spill_buffer(count);
500         if (spill_buffer == NULL) {
501                 ret = -1;
502                 goto out;
503         }
504
505         /*
506          * Keep trying recvfile until:
507          *  - There is no data left to read on the socket, or
508          *  - bytes read != bytes written, or
509          *  - An error is returned that isn't EINTR/EAGAIN
510          */
511         do {
512                 /* Keep track of bytes read/written for recvfile */
513                 rbytes = 0;
514                 wbytes = 0;
515
516                 DEBUG(10, ("calling recvfile loop, offset + total_wbytes = "
517                            "%llu, count - total_rbytes = %llu\n",
518                            offset + total_wbytes, count - total_rbytes));
519
520                 ret = recvfile(tofd, fromfd, offset + total_wbytes,
521                                count - total_wbytes, &rbytes, &wbytes, 0,
522                                spill_buffer);
523
524                 DEBUG(10, ("recvfile ret = %d, errno = %d, rbytes = %llu, "
525                            "wbytes = %llu\n", ret, ret >= 0 ? 0 : errno,
526                            rbytes, wbytes));
527
528                 /* Update our progress so far */
529                 total_rbytes += rbytes;
530                 total_wbytes += wbytes;
531
532         } while ((count - total_rbytes) && (rbytes == wbytes) &&
533                  (ret == -1 && (errno == EINTR || errno == EAGAIN)));
534
535         DEBUG(10, ("total_rbytes = %llu, total_wbytes = %llu\n",
536                    total_rbytes, total_wbytes));
537
538         /* Log if recvfile didn't write everything it read. */
539         if (total_rbytes != total_wbytes) {
540                 DEBUG(0, ("partial recvfile: total_rbytes=%llu but "
541                           "total_wbytes=%llu, diff = %llu\n", total_rbytes,
542                           total_wbytes, total_rbytes - total_wbytes));
543                 SMB_ASSERT(total_rbytes > total_wbytes);
544         }
545
546         /*
547          * If there is still data on the socket, read it off.
548          */
549         while (total_rbytes < count) {
550
551                 DEBUG(0, ("shallow recvfile, reading %llu\n",
552                           count - total_rbytes));
553
554                 /*
555                  * Read the remaining data into the spill buffer.  recvfile
556                  * may already have some data in the spill buffer, so start
557                  * filling the buffer at total_rbytes - total_wbytes.
558                  */
559                 ret = sys_read(fromfd,
560                                spill_buffer + (total_rbytes - total_wbytes),
561                                count - total_rbytes);
562
563                 if (ret == -1) {
564                         DEBUG(0, ("shallow recvfile read failed: %s\n",
565                                   strerror(errno)));
566                         /* Socket is dead, so treat as if it were drained. */
567                         socket_drained = true;
568                         goto out;
569                 }
570
571                 /* Data was read so update the rbytes */
572                 total_rbytes += ret;
573         }
574
575         if (total_rbytes != count) {
576                 smb_panic("Unread recvfile data still on the socket!");
577         }
578
579         /*
580          * Now write any spilled data + the extra data read off the socket.
581          */
582         while (total_wbytes < count) {
583
584                 DEBUG(0, ("partial recvfile, writing %llu\n", count - total_wbytes));
585
586                 ret = sys_pwrite(tofd, spill_buffer, count - total_wbytes,
587                                  offset + total_wbytes);
588
589                 if (ret == -1) {
590                         DEBUG(0, ("partial recvfile write failed: %s\n",
591                                   strerror(errno)));
592                         goto out;
593                 }
594
595                 /* Data was written so update the wbytes */
596                 total_wbytes += ret;
597         }
598
599         /* Success! */
600         ret = total_wbytes;
601
602 out:
603         /* Make sure we always try to drain the socket. */
604         if (!socket_drained && count - total_rbytes) {
605                 int saved_errno = errno;
606
607                 if (drain_socket(fromfd, count - total_rbytes) !=
608                     count - total_rbytes) {
609                         /* Socket is dead! */
610                         DEBUG(0, ("drain socket failed: %d\n", errno));
611                 }
612                 errno = saved_errno;
613         }
614
615         return ret;
616 }