Merge remote branch 'amitay/tevent-sync'
[samba.git] / ctdb / common / ctdb_util.c
1 /* 
2    ctdb utility code
3
4    Copyright (C) Andrew Tridgell  2006
5
6    This program is free software; you can redistribute it and/or modify
7    it under the terms of the GNU General Public License as published by
8    the Free Software Foundation; either version 3 of the License, or
9    (at your option) any later version.
10    
11    This program is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14    GNU General Public License for more details.
15    
16    You should have received a copy of the GNU General Public License
17    along with this program; if not, see <http://www.gnu.org/licenses/>.
18 */
19
20 #include "includes.h"
21 #include "lib/tdb/include/tdb.h"
22 #include "system/network.h"
23 #include "system/filesys.h"
24 #include "system/wait.h"
25 #include "system/shmem.h"
26 #include "../include/ctdb_private.h"
27
28 int LogLevel = DEBUG_NOTICE;
29 int this_log_level = 0;
30
31 /*
32   return error string for last error
33 */
34 const char *ctdb_errstr(struct ctdb_context *ctdb)
35 {
36         return ctdb->err_msg;
37 }
38
39
40 /*
41   remember an error message
42 */
43 void ctdb_set_error(struct ctdb_context *ctdb, const char *fmt, ...)
44 {
45         va_list ap;
46         talloc_free(ctdb->err_msg);
47         va_start(ap, fmt);
48         ctdb->err_msg = talloc_vasprintf(ctdb, fmt, ap);
49         DEBUG(DEBUG_ERR,("ctdb error: %s\n", ctdb->err_msg));
50         va_end(ap);
51 }
52
53 /*
54   a fatal internal error occurred - no hope for recovery
55 */
56 void ctdb_fatal(struct ctdb_context *ctdb, const char *msg)
57 {
58         DEBUG(DEBUG_ALERT,("ctdb fatal error: %s\n", msg));
59         abort();
60 }
61
62 /*
63   parse a IP:port pair
64 */
65 int ctdb_parse_address(struct ctdb_context *ctdb,
66                        TALLOC_CTX *mem_ctx, const char *str,
67                        struct ctdb_address *address)
68 {
69         struct servent *se;
70
71         setservent(0);
72         se = getservbyname("ctdb", "tcp");
73         endservent();
74         
75         address->address = talloc_strdup(mem_ctx, str);
76         CTDB_NO_MEMORY(ctdb, address->address);
77
78         if (se == NULL) {
79                 address->port = CTDB_PORT;
80         } else {
81                 address->port = ntohs(se->s_port);
82         }
83         return 0;
84 }
85
86
87 /*
88   check if two addresses are the same
89 */
90 bool ctdb_same_address(struct ctdb_address *a1, struct ctdb_address *a2)
91 {
92         return strcmp(a1->address, a2->address) == 0 && a1->port == a2->port;
93 }
94
95
96 /*
97   hash function for mapping data to a VNN - taken from tdb
98 */
99 uint32_t ctdb_hash(const TDB_DATA *key)
100 {
101         return tdb_jenkins_hash(discard_const(key));
102 }
103
104 /*
105   a type checking varient of idr_find
106  */
107 static void *_idr_find_type(struct idr_context *idp, int id, const char *type, const char *location)
108 {
109         void *p = idr_find(idp, id);
110         if (p && talloc_check_name(p, type) == NULL) {
111                 DEBUG(DEBUG_ERR,("%s idr_find_type expected type %s  but got %s\n",
112                          location, type, talloc_get_name(p)));
113                 return NULL;
114         }
115         return p;
116 }
117
118 uint32_t ctdb_reqid_new(struct ctdb_context *ctdb, void *state)
119 {
120         int id = idr_get_new_above(ctdb->idr, state, ctdb->lastid+1, INT_MAX);
121         if (id < 0) {
122                 DEBUG(DEBUG_DEBUG, ("Reqid wrap!\n"));
123                 id = idr_get_new(ctdb->idr, state, INT_MAX);
124         }
125         ctdb->lastid = id;
126         return id;
127 }
128
129 void *_ctdb_reqid_find(struct ctdb_context *ctdb, uint32_t reqid, const char *type, const char *location)
130 {
131         void *p;
132
133         p = _idr_find_type(ctdb->idr, reqid, type, location);
134         if (p == NULL) {
135                 DEBUG(DEBUG_WARNING, ("Could not find idr:%u\n",reqid));
136         }
137
138         return p;
139 }
140
141
142 void ctdb_reqid_remove(struct ctdb_context *ctdb, uint32_t reqid)
143 {
144         int ret;
145
146         ret = idr_remove(ctdb->idr, reqid);
147         if (ret != 0) {
148                 DEBUG(DEBUG_ERR, ("Removing idr that does not exist\n"));
149         }
150 }
151
152
153 /*
154   form a ctdb_rec_data record from a key/data pair
155   
156   note that header may be NULL. If not NULL then it is included in the data portion
157   of the record
158  */
159 struct ctdb_rec_data *ctdb_marshall_record(TALLOC_CTX *mem_ctx, uint32_t reqid, 
160                                            TDB_DATA key, 
161                                            struct ctdb_ltdb_header *header,
162                                            TDB_DATA data)
163 {
164         size_t length;
165         struct ctdb_rec_data *d;
166
167         length = offsetof(struct ctdb_rec_data, data) + key.dsize + 
168                 data.dsize + (header?sizeof(*header):0);
169         d = (struct ctdb_rec_data *)talloc_size(mem_ctx, length);
170         if (d == NULL) {
171                 return NULL;
172         }
173         d->length = length;
174         d->reqid = reqid;
175         d->keylen = key.dsize;
176         memcpy(&d->data[0], key.dptr, key.dsize);
177         if (header) {
178                 d->datalen = data.dsize + sizeof(*header);
179                 memcpy(&d->data[key.dsize], header, sizeof(*header));
180                 memcpy(&d->data[key.dsize+sizeof(*header)], data.dptr, data.dsize);
181         } else {
182                 d->datalen = data.dsize;
183                 memcpy(&d->data[key.dsize], data.dptr, data.dsize);
184         }
185         return d;
186 }
187
188
189 /* helper function for marshalling multiple records */
190 struct ctdb_marshall_buffer *ctdb_marshall_add(TALLOC_CTX *mem_ctx, 
191                                                struct ctdb_marshall_buffer *m,
192                                                uint64_t db_id,
193                                                uint32_t reqid,
194                                                TDB_DATA key,
195                                                struct ctdb_ltdb_header *header,
196                                                TDB_DATA data)
197 {
198         struct ctdb_rec_data *r;
199         size_t m_size, r_size;
200         struct ctdb_marshall_buffer *m2;
201
202         r = ctdb_marshall_record(mem_ctx, reqid, key, header, data);
203         if (r == NULL) {
204                 talloc_free(m);
205                 return NULL;
206         }
207
208         if (m == NULL) {
209                 m = talloc_zero_size(mem_ctx, offsetof(struct ctdb_marshall_buffer, data));
210                 if (m == NULL) {
211                         return NULL;
212                 }
213                 m->db_id = db_id;
214         }
215
216         m_size = talloc_get_size(m);
217         r_size = talloc_get_size(r);
218
219         m2 = talloc_realloc_size(mem_ctx, m,  m_size + r_size);
220         if (m2 == NULL) {
221                 talloc_free(m);
222                 return NULL;
223         }
224
225         memcpy(m_size + (uint8_t *)m2, r, r_size);
226
227         talloc_free(r);
228
229         m2->count++;
230
231         return m2;
232 }
233
234 /* we've finished marshalling, return a data blob with the marshalled records */
235 TDB_DATA ctdb_marshall_finish(struct ctdb_marshall_buffer *m)
236 {
237         TDB_DATA data;
238         data.dptr = (uint8_t *)m;
239         data.dsize = talloc_get_size(m);
240         return data;
241 }
242
243 /* 
244    loop over a marshalling buffer 
245    
246      - pass r==NULL to start
247      - loop the number of times indicated by m->count
248 */
249 struct ctdb_rec_data *ctdb_marshall_loop_next(struct ctdb_marshall_buffer *m, struct ctdb_rec_data *r,
250                                               uint32_t *reqid,
251                                               struct ctdb_ltdb_header *header,
252                                               TDB_DATA *key, TDB_DATA *data)
253 {
254         if (r == NULL) {
255                 r = (struct ctdb_rec_data *)&m->data[0];
256         } else {
257                 r = (struct ctdb_rec_data *)(r->length + (uint8_t *)r);
258         }
259
260         if (reqid != NULL) {
261                 *reqid = r->reqid;
262         }
263         
264         if (key != NULL) {
265                 key->dptr   = &r->data[0];
266                 key->dsize  = r->keylen;
267         }
268         if (data != NULL) {
269                 data->dptr  = &r->data[r->keylen];
270                 data->dsize = r->datalen;
271                 if (header != NULL) {
272                         data->dptr += sizeof(*header);
273                         data->dsize -= sizeof(*header);
274                 }
275         }
276
277         if (header != NULL) {
278                 if (r->datalen < sizeof(*header)) {
279                         return NULL;
280                 }
281                 *header = *(struct ctdb_ltdb_header *)&r->data[r->keylen];
282         }
283
284         return r;
285 }
286
287
288 #if HAVE_SCHED_H
289 #include <sched.h>
290 #endif
291
292 /*
293   if possible, make this task real time
294  */
295 void ctdb_set_scheduler(struct ctdb_context *ctdb)
296 {
297 #if HAVE_SCHED_SETSCHEDULER     
298         struct sched_param p;
299         if (ctdb->saved_scheduler_param == NULL) {
300                 ctdb->saved_scheduler_param = talloc_size(ctdb, sizeof(p));
301         }
302         
303         if (sched_getparam(0, (struct sched_param *)ctdb->saved_scheduler_param) == -1) {
304                 DEBUG(DEBUG_ERR,("Unable to get old scheduler params\n"));
305                 return;
306         }
307
308         p = *(struct sched_param *)ctdb->saved_scheduler_param;
309         p.sched_priority = 1;
310
311         if (sched_setscheduler(0, SCHED_FIFO, &p) == -1) {
312                 DEBUG(DEBUG_CRIT,("Unable to set scheduler to SCHED_FIFO (%s)\n", 
313                          strerror(errno)));
314         } else {
315                 DEBUG(DEBUG_NOTICE,("Set scheduler to SCHED_FIFO\n"));
316         }
317 #endif
318 }
319
320 /*
321   restore previous scheduler parameters
322  */
323 void ctdb_restore_scheduler(struct ctdb_context *ctdb)
324 {
325 #if HAVE_SCHED_SETSCHEDULER     
326         if (ctdb->saved_scheduler_param == NULL) {
327                 ctdb_fatal(ctdb, "No saved scheduler parameters\n");
328         }
329         if (sched_setscheduler(0, SCHED_OTHER, (struct sched_param *)ctdb->saved_scheduler_param) == -1) {
330                 ctdb_fatal(ctdb, "Unable to restore old scheduler parameters\n");
331         }
332 #endif
333 }
334
335 /*
336  * This function forks a child process and drops the realtime 
337  * scheduler for the child process.
338  */
339 pid_t ctdb_fork(struct ctdb_context *ctdb)
340 {
341         pid_t pid;
342
343         pid = fork();
344         if (pid == 0) {
345                 if (ctdb->do_setsched) {
346                         ctdb_restore_scheduler(ctdb);
347                 }
348                 ctdb->can_send_controls = false;
349         }
350         return pid;
351 }
352
353 void set_nonblocking(int fd)
354 {
355         unsigned v;
356         v = fcntl(fd, F_GETFL, 0);
357         fcntl(fd, F_SETFL, v | O_NONBLOCK);
358 }
359
360 void set_close_on_exec(int fd)
361 {
362         unsigned v;
363         v = fcntl(fd, F_GETFD, 0);
364         fcntl(fd, F_SETFD, v | FD_CLOEXEC);
365 }
366
367
368 bool parse_ipv4(const char *s, unsigned port, struct sockaddr_in *sin)
369 {
370         sin->sin_family = AF_INET;
371         sin->sin_port   = htons(port);
372
373         if (inet_pton(AF_INET, s, &sin->sin_addr) != 1) {
374                 DEBUG(DEBUG_ERR, (__location__ " Failed to translate %s into sin_addr\n", s));
375                 return false;
376         }
377
378         return true;
379 }
380
381 static bool parse_ipv6(const char *s, const char *ifaces, unsigned port, ctdb_sock_addr *saddr)
382 {
383         saddr->ip6.sin6_family   = AF_INET6;
384         saddr->ip6.sin6_port     = htons(port);
385         saddr->ip6.sin6_flowinfo = 0;
386         saddr->ip6.sin6_scope_id = 0;
387
388         if (inet_pton(AF_INET6, s, &saddr->ip6.sin6_addr) != 1) {
389                 DEBUG(DEBUG_ERR, (__location__ " Failed to translate %s into sin6_addr\n", s));
390                 return false;
391         }
392
393         if (ifaces && IN6_IS_ADDR_LINKLOCAL(&saddr->ip6.sin6_addr)) {
394                 if (strchr(ifaces, ',')) {
395                         DEBUG(DEBUG_ERR, (__location__ " Link local address %s "
396                                           "is specified for multiple ifaces %s\n",
397                                           s, ifaces));
398                         return false;
399                 }
400                 saddr->ip6.sin6_scope_id = if_nametoindex(ifaces);
401         }
402
403         return true;
404 }
405 /*
406   parse a ip:port pair
407  */
408 bool parse_ip_port(const char *addr, ctdb_sock_addr *saddr)
409 {
410         TALLOC_CTX *tmp_ctx = talloc_new(NULL);
411         char *s, *p;
412         unsigned port;
413         char *endp = NULL;
414         bool ret;
415
416         s = talloc_strdup(tmp_ctx, addr);
417         if (s == NULL) {
418                 DEBUG(DEBUG_ERR, (__location__ " Failed strdup()\n"));
419                 talloc_free(tmp_ctx);
420                 return false;
421         }
422
423         p = rindex(s, ':');
424         if (p == NULL) {
425                 DEBUG(DEBUG_ERR, (__location__ " This addr: %s does not contain a port number\n", s));
426                 talloc_free(tmp_ctx);
427                 return false;
428         }
429
430         port = strtoul(p+1, &endp, 10);
431         if (endp == NULL || *endp != 0) {
432                 /* trailing garbage */
433                 DEBUG(DEBUG_ERR, (__location__ " Trailing garbage after the port in %s\n", s));
434                 talloc_free(tmp_ctx);
435                 return false;
436         }
437         *p = 0;
438
439
440         /* now is this a ipv4 or ipv6 address ?*/
441         ret = parse_ip(s, NULL, port, saddr);
442
443         talloc_free(tmp_ctx);
444         return ret;
445 }
446
447 /*
448   parse an ip
449  */
450 bool parse_ip(const char *addr, const char *ifaces, unsigned port, ctdb_sock_addr *saddr)
451 {
452         char *p;
453         bool ret;
454
455         /* now is this a ipv4 or ipv6 address ?*/
456         p = index(addr, ':');
457         if (p == NULL) {
458                 ret = parse_ipv4(addr, port, &saddr->ip);
459         } else {
460                 ret = parse_ipv6(addr, ifaces, port, saddr);
461         }
462
463         return ret;
464 }
465
466 /*
467   parse a ip/mask pair
468  */
469 bool parse_ip_mask(const char *str, const char *ifaces, ctdb_sock_addr *addr, unsigned *mask)
470 {
471         TALLOC_CTX *tmp_ctx = talloc_new(NULL);
472         char *s, *p;
473         char *endp = NULL;
474         bool ret;
475
476         ZERO_STRUCT(*addr);
477         s = talloc_strdup(tmp_ctx, str);
478         if (s == NULL) {
479                 DEBUG(DEBUG_ERR, (__location__ " Failed strdup()\n"));
480                 talloc_free(tmp_ctx);
481                 return false;
482         }
483
484         p = rindex(s, '/');
485         if (p == NULL) {
486                 DEBUG(DEBUG_ERR, (__location__ " This addr: %s does not contain a mask\n", s));
487                 talloc_free(tmp_ctx);
488                 return false;
489         }
490
491         *mask = strtoul(p+1, &endp, 10);
492         if (endp == NULL || *endp != 0) {
493                 /* trailing garbage */
494                 DEBUG(DEBUG_ERR, (__location__ " Trailing garbage after the mask in %s\n", s));
495                 talloc_free(tmp_ctx);
496                 return false;
497         }
498         *p = 0;
499
500
501         /* now is this a ipv4 or ipv6 address ?*/
502         ret = parse_ip(s, ifaces, 0, addr);
503
504         talloc_free(tmp_ctx);
505         return ret;
506 }
507
508 /*
509    This is used to canonicalize a ctdb_sock_addr structure.
510 */
511 void ctdb_canonicalize_ip(const ctdb_sock_addr *ip, ctdb_sock_addr *cip)
512 {
513         char prefix[12] = { 0,0,0,0,0,0,0,0,0,0,0xff,0xff };
514
515         memcpy(cip, ip, sizeof (*cip));
516
517         if ( (ip->sa.sa_family == AF_INET6)
518         && !memcmp(&ip->ip6.sin6_addr, prefix, 12)) {
519                 memset(cip, 0, sizeof(*cip));
520 #ifdef HAVE_SOCK_SIN_LEN
521                 cip->ip.sin_len = sizeof(*cip);
522 #endif
523                 cip->ip.sin_family = AF_INET;
524                 cip->ip.sin_port   = ip->ip6.sin6_port;
525                 memcpy(&cip->ip.sin_addr, &ip->ip6.sin6_addr.s6_addr[12], 4);
526         }
527 }
528
529 bool ctdb_same_ip(const ctdb_sock_addr *tip1, const ctdb_sock_addr *tip2)
530 {
531         ctdb_sock_addr ip1, ip2;
532
533         ctdb_canonicalize_ip(tip1, &ip1);
534         ctdb_canonicalize_ip(tip2, &ip2);
535         
536         if (ip1.sa.sa_family != ip2.sa.sa_family) {
537                 return false;
538         }
539
540         switch (ip1.sa.sa_family) {
541         case AF_INET:
542                 return ip1.ip.sin_addr.s_addr == ip2.ip.sin_addr.s_addr;
543         case AF_INET6:
544                 return !memcmp(&ip1.ip6.sin6_addr.s6_addr[0],
545                                 &ip2.ip6.sin6_addr.s6_addr[0],
546                                 16);
547         default:
548                 DEBUG(DEBUG_ERR, (__location__ " CRITICAL Can not compare sockaddr structures of type %u\n", ip1.sa.sa_family));
549                 return false;
550         }
551
552         return true;
553 }
554
555 /*
556   compare two ctdb_sock_addr structures
557  */
558 bool ctdb_same_sockaddr(const ctdb_sock_addr *ip1, const ctdb_sock_addr *ip2)
559 {
560         return ctdb_same_ip(ip1, ip2) && ip1->ip.sin_port == ip2->ip.sin_port;
561 }
562
563 char *ctdb_addr_to_str(ctdb_sock_addr *addr)
564 {
565         static char cip[128] = "";
566
567         switch (addr->sa.sa_family) {
568         case AF_INET:
569                 inet_ntop(addr->ip.sin_family, &addr->ip.sin_addr, cip, sizeof(cip));
570                 break;
571         case AF_INET6:
572                 inet_ntop(addr->ip6.sin6_family, &addr->ip6.sin6_addr, cip, sizeof(cip));
573                 break;
574         default:
575                 DEBUG(DEBUG_ERR, (__location__ " ERROR, unknown family %u\n", addr->sa.sa_family));
576         }
577
578         return cip;
579 }
580
581 unsigned ctdb_addr_to_port(ctdb_sock_addr *addr)
582 {
583         switch (addr->sa.sa_family) {
584         case AF_INET:
585                 return ntohs(addr->ip.sin_port);
586                 break;
587         case AF_INET6:
588                 return ntohs(addr->ip6.sin6_port);
589                 break;
590         default:
591                 DEBUG(DEBUG_ERR, (__location__ " ERROR, unknown family %u\n", addr->sa.sa_family));
592         }
593
594         return 0;
595 }
596
597 void ctdb_block_signal(int signum)
598 {
599         sigset_t set;
600         sigemptyset(&set);
601         sigaddset(&set,signum);
602         sigprocmask(SIG_BLOCK,&set,NULL);
603 }
604
605 void ctdb_unblock_signal(int signum)
606 {
607         sigset_t set;
608         sigemptyset(&set);
609         sigaddset(&set,signum);
610         sigprocmask(SIG_UNBLOCK,&set,NULL);
611 }
612
613 struct debug_levels debug_levels[] = {
614         {DEBUG_EMERG,   "EMERG"},
615         {DEBUG_ALERT,   "ALERT"},
616         {DEBUG_CRIT,    "CRIT"},
617         {DEBUG_ERR,     "ERR"},
618         {DEBUG_WARNING, "WARNING"},
619         {DEBUG_NOTICE,  "NOTICE"},
620         {DEBUG_INFO,    "INFO"},
621         {DEBUG_DEBUG,   "DEBUG"},
622         {0, NULL}
623 };
624
625 const char *get_debug_by_level(int32_t level)
626 {
627         int i;
628
629         for (i=0; debug_levels[i].description != NULL; i++) {
630                 if (debug_levels[i].level == level) {
631                         return debug_levels[i].description;
632                 }
633         }
634         return "Unknown";
635 }
636
637 int32_t get_debug_by_desc(const char *desc)
638 {
639         int i;
640
641         for (i=0; debug_levels[i].description != NULL; i++) {
642                 if (!strcmp(debug_levels[i].description, desc)) {
643                         return debug_levels[i].level;
644                 }
645         }
646
647         return DEBUG_ERR;
648 }
649
650 /* we don't lock future pages here; it would increase the chance that
651  * we'd fail to mmap later on. */
652 void ctdb_lockdown_memory(struct ctdb_context *ctdb)
653 {
654 #ifdef HAVE_MLOCKALL
655         /* Extra stack, please! */
656         char dummy[10000];
657         memset(dummy, 0, sizeof(dummy));
658
659         if (ctdb->valgrinding) {
660                 return;
661         }
662
663         /* Avoid compiler optimizing out dummy. */
664         mlock(dummy, sizeof(dummy));
665         if (mlockall(MCL_CURRENT) != 0) {
666                 DEBUG(DEBUG_WARNING,("Failed to lock memory: %s'\n",
667                                      strerror(errno)));
668         }
669 #endif
670 }
671
672 const char *ctdb_eventscript_call_names[] = {
673         "init",
674         "setup",
675         "startup",
676         "startrecovery",
677         "recovered",
678         "takeip",
679         "releaseip",
680         "stopped",
681         "monitor",
682         "status",
683         "shutdown",
684         "reload",
685         "updateip",
686         "ipreallocated"
687 };