Tree - rpms/glibc - CentOS Git server

rpms / glibc

Blame SOURCES/glibc-rh1385004-23.patch

Blob History Raw

		00db10	`From fabf4e24731762be7ed1fded89b536fe7150fe13 Mon Sep 17 00:00:00 2001`
		00db10	`From: Rajalakshmi Srinivasaraghavan <raji@linux.vnet.ibm.com>`
		00db10	`Date: Tue, 13 Dec 2016 10:53:42 +0530`
		00db10	`Subject: [PATCH] powerpc: strncmp optimization for power9`
		00db10
		00db10	`Vectorized loops are used for strings > 32B when compared`
		00db10	`to power8 optimization.`
		00db10
		00db10	`Tested on power9 ppc64le simulator.`
		00db10
		00db10	`(cherry picked from commit d89060d60307c84995177a6fba2ed80c96f6b914)`
		00db10
		00db10	`Conflicts:`
		00db10	`sysdeps/powerpc/powerpc64/multiarch/strncmp.c`
		00db10	`---`
		00db10	`ChangeLog \| 11 +`
		00db10	`sysdeps/powerpc/powerpc64/multiarch/Makefile \| 3 +-`
		00db10	`.../powerpc/powerpc64/multiarch/ifunc-impl-list.c \| 2 +`
		00db10	`.../powerpc/powerpc64/multiarch/strncmp-power9.S \| 40 +++`
		00db10	`sysdeps/powerpc/powerpc64/multiarch/strncmp.c \| 17 +-`
		00db10	`sysdeps/powerpc/powerpc64/power9/strncmp.S \| 375 +++++++++++++++++++++`
		00db10	`6 files changed, 440 insertions(+), 8 deletions(-)`
		00db10	`create mode 100644 sysdeps/powerpc/powerpc64/multiarch/strncmp-power9.S`
		00db10	`create mode 100644 sysdeps/powerpc/powerpc64/power9/strncmp.S`
		00db10
		00db10	`diff --git a/ChangeLog b/ChangeLog`
		00db10	`index 57152b8..0446268 100644`
		00db10	`diff --git a/sysdeps/powerpc/powerpc64/multiarch/Makefile b/sysdeps/powerpc/powerpc64/multiarch/Makefile`
		00db10	`index 2c83c22..2997b9d 100644`
		00db10	`--- a/sysdeps/powerpc/powerpc64/multiarch/Makefile`
		00db10	`+++ b/sysdeps/powerpc/powerpc64/multiarch/Makefile`
		00db10	`@@ -8,7 +8,8 @@ sysdep_routines += memcpy-power7 memcpy-a2 memcpy-power6 memcpy-cell \`
		00db10	`rawmemchr-ppc64 strlen-power7 strlen-ppc64 strnlen-power7 \`
		00db10	`strnlen-ppc64 strcasecmp-power7 strcasecmp_l-power7 \`
		00db10	`strncase-power7 strncase_l-power7 \`
		00db10	`- strncmp-power8 strncmp-power7 strncmp-power4 strncmp-ppc64 \`
		00db10	`+ strncmp-power9 strncmp-power8 strncmp-power7 \`
		00db10	`+ strncmp-power4 strncmp-ppc64 \`
		00db10	`strchr-power7 strchr-ppc64 \`
		00db10	`strchrnul-power7 strchrnul-ppc64 wcschr-power7 \`
		00db10	`wcschr-power6 wcschr-ppc64 wcsrchr-power7 wcsrchr-power6 \`
		00db10	`diff --git a/sysdeps/powerpc/powerpc64/multiarch/ifunc-impl-list.c b/sysdeps/powerpc/powerpc64/multiarch/ifunc-impl-list.c`
		00db10	`index 404a226..a140583 100644`
		00db10	`--- a/sysdeps/powerpc/powerpc64/multiarch/ifunc-impl-list.c`
		00db10	`+++ b/sysdeps/powerpc/powerpc64/multiarch/ifunc-impl-list.c`
		00db10	`@@ -110,6 +110,8 @@ __libc_ifunc_impl_list (const char name, struct libc_ifunc_impl array,`
		00db10
		00db10	`/* Support sysdeps/powerpc/powerpc64/multiarch/strncmp.c. */`
		00db10	`IFUNC_IMPL (i, name, strncmp,`
		00db10	`+ IFUNC_IMPL_ADD (array, i, strncmp, hwcap2 & PPC_FEATURE2_ARCH_3_00,`
		00db10	`+ __strncmp_power9)`
		00db10	`IFUNC_IMPL_ADD (array, i, strncmp, hwcap2 & PPC_FEATURE2_ARCH_2_07,`
		00db10	`__strncmp_power8)`
		00db10	`IFUNC_IMPL_ADD (array, i, strncmp, hwcap & PPC_FEATURE_HAS_VSX,`
		00db10	`diff --git a/sysdeps/powerpc/powerpc64/multiarch/strncmp-power9.S b/sysdeps/powerpc/powerpc64/multiarch/strncmp-power9.S`
		00db10	`new file mode 100644`
		00db10	`index 0000000..2f8d0c4`
		00db10	`--- /dev/null`
		00db10	`+++ b/sysdeps/powerpc/powerpc64/multiarch/strncmp-power9.S`
		00db10	`@@ -0,0 +1,40 @@`
		00db10	`+/* Copyright (C) 2016 Free Software Foundation, Inc.`
		00db10	`+ This file is part of the GNU C Library.`
		00db10	`+`
		00db10	`+ The GNU C Library is free software; you can redistribute it and/or`
		00db10	`+ modify it under the terms of the GNU Lesser General Public`
		00db10	`+ License as published by the Free Software Foundation; either`
		00db10	`+ version 2.1 of the License, or (at your option) any later version.`
		00db10	`+`
		00db10	`+ The GNU C Library is distributed in the hope that it will be useful,`
		00db10	`+ but WITHOUT ANY WARRANTY; without even the implied warranty of`
		00db10	`+ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU`
		00db10	`+ Lesser General Public License for more details.`
		00db10	`+`
		00db10	`+ You should have received a copy of the GNU Lesser General Public`
		00db10	`+ License along with the GNU C Library; if not, see`
		00db10	`+ <http://www.gnu.org/licenses/>. */`
		00db10	`+`
		00db10	`+#include <sysdep.h>`
		00db10	`+`
		00db10	`+#undef EALIGN`
		00db10	`+#define EALIGN(name,alignt,words) \`
		00db10	`+ .section ".text"; \`
		00db10	`+ ENTRY_2(__strncmp_power9) \`
		00db10	`+ .align ALIGNARG(alignt); \`
		00db10	`+ EALIGN_W_##words; \`
		00db10	`+ BODY_LABEL(__strncmp_power9): \`
		00db10	`+ cfi_startproc; \`
		00db10	`+ LOCALENTRY(__strncmp_power9)`
		00db10	`+`
		00db10	`+#undef END`
		00db10	`+#define END(name) \`
		00db10	`+ cfi_endproc; \`
		00db10	`+ TRACEBACK(__strncmp_power9) \`
		00db10	`+ END_2(__strncmp_power9)`
		00db10	`+`
		00db10	`+`
		00db10	`+#undef libc_hidden_builtin_def`
		00db10	`+#define libc_hidden_builtin_def(name)`
		00db10	`+`
		00db10	`+#include <sysdeps/powerpc/powerpc64/power9/strncmp.S>`
		00db10	`diff --git a/sysdeps/powerpc/powerpc64/multiarch/strncmp.c b/sysdeps/powerpc/powerpc64/multiarch/strncmp.c`
		00db10	`index 9b6a659..3859cbc 100644`
		00db10	`--- a/sysdeps/powerpc/powerpc64/multiarch/strncmp.c`
		00db10	`+++ b/sysdeps/powerpc/powerpc64/multiarch/strncmp.c`
		00db10	`@@ -26,15 +26,18 @@ extern __typeof (strncmp) __strncmp_ppc attribute_hidden;`
		00db10	`extern __typeof (strncmp) __strncmp_power4 attribute_hidden;`
		00db10	`extern __typeof (strncmp) __strncmp_power7 attribute_hidden;`
		00db10	`extern __typeof (strncmp) __strncmp_power8 attribute_hidden;`
		00db10	`+extern __typeof (strncmp) __strncmp_power9 attribute_hidden;`
		00db10
		00db10	`/* Avoid DWARF definition DIE on ifunc symbol so that GDB can handle`
		00db10	`ifunc symbol properly. */`
		00db10	`libc_ifunc (strncmp,`
		00db10	`- (hwcap2 & PPC_FEATURE2_ARCH_2_07)`
		00db10	`- ? __strncmp_power8 :`
		00db10	`- (hwcap & PPC_FEATURE_HAS_VSX)`
		00db10	`- ? __strncmp_power7 :`
		00db10	`- (hwcap & PPC_FEATURE_POWER4)`
		00db10	`- ? __strncmp_power4`
		00db10	`- : __strncmp_ppc);`
		00db10	`+ (hwcap2 & PPC_FEATURE2_ARCH_3_00)`
		00db10	`+ ? __strncmp_power9 :`
		00db10	`+ (hwcap2 & PPC_FEATURE2_ARCH_2_07)`
		00db10	`+ ? __strncmp_power8 :`
		00db10	`+ (hwcap & PPC_FEATURE_HAS_VSX)`
		00db10	`+ ? __strncmp_power7 :`
		00db10	`+ (hwcap & PPC_FEATURE_POWER4)`
		00db10	`+ ? __strncmp_power4`
		00db10	`+ : __strncmp_ppc);`
		00db10	`#endif`
		00db10	`diff --git a/sysdeps/powerpc/powerpc64/power9/strncmp.S b/sysdeps/powerpc/powerpc64/power9/strncmp.S`
		00db10	`new file mode 100644`
		00db10	`index 0000000..3f2fa75`
		00db10	`--- /dev/null`
		00db10	`+++ b/sysdeps/powerpc/powerpc64/power9/strncmp.S`
		00db10	`@@ -0,0 +1,375 @@`
		00db10	`+/* Optimized strncmp implementation for PowerPC64/POWER9.`
		00db10	`+ Copyright (C) 2016 Free Software Foundation, Inc.`
		00db10	`+ This file is part of the GNU C Library.`
		00db10	`+`
		00db10	`+ The GNU C Library is free software; you can redistribute it and/or`
		00db10	`+ modify it under the terms of the GNU Lesser General Public`
		00db10	`+ License as published by the Free Software Foundation; either`
		00db10	`+ version 2.1 of the License, or (at your option) any later version.`
		00db10	`+`
		00db10	`+ The GNU C Library is distributed in the hope that it will be useful,`
		00db10	`+ but WITHOUT ANY WARRANTY; without even the implied warranty of`
		00db10	`+ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU`
		00db10	`+ Lesser General Public License for more details.`
		00db10	`+`
		00db10	`+ You should have received a copy of the GNU Lesser General Public`
		00db10	`+ License along with the GNU C Library; if not, see`
		00db10	`+ <http://www.gnu.org/licenses/>. */`
		00db10	`+#ifdef __LITTLE_ENDIAN__`
		00db10	`+#include <sysdep.h>`
		00db10	`+`
		00db10	`+/* Implements the function`
		00db10	`+`
		00db10	`+ int [r3] strncmp (const char s1 [r3], const char s2 [r4], size_t [r5] n)`
		00db10	`+`
		00db10	`+ The implementation uses unaligned doubleword access to avoid specialized`
		00db10	`+ code paths depending of data alignment for first 32 bytes and uses`
		00db10	`+ vectorised loops after that. */`
		00db10	`+`
		00db10	`+/* TODO: Change this to actual instructions when minimum binutils is upgraded`
		00db10	`+ to 2.27. Macros are defined below for these newer instructions in order`
		00db10	`+ to maintain compatibility. */`
		00db10	`+# define VCTZLSBB(r,v) .long (0x10010602 \| ((r)<<(32-11)) \| ((v)<<(32-21)))`
		00db10	`+`
		00db10	`+# define VEXTUBRX(t,a,b) .long (0x1000070d \`
		00db10	`+ \| ((t)<<(32-11)) \`
		00db10	`+ \| ((a)<<(32-16)) \`
		00db10	`+ \| ((b)<<(32-21)) )`
		00db10	`+`
		00db10	`+# define VCMPNEZB(t,a,b) .long (0x10000507 \`
		00db10	`+ \| ((t)<<(32-11)) \`
		00db10	`+ \| ((a)<<(32-16)) \`
		00db10	`+ \| ((b)<<(32-21)) )`
		00db10	`+`
		00db10	`+/* Get 16 bytes for unaligned case.`
		00db10	`+ reg1: Vector to hold next 16 bytes.`
		00db10	`+ reg2: Address to read from.`
		00db10	`+ reg3: Permute control vector. */`
		00db10	`+# define GET16BYTES(reg1, reg2, reg3) \`
		00db10	`+ lvx reg1, 0, reg2; \`
		00db10	`+ vperm v8, v2, reg1, reg3; \`
		00db10	`+ vcmpequb. v8, v0, v8; \`
		00db10	`+ beq cr6, 1f; \`
		00db10	`+ vspltisb v9, 0; \`
		00db10	`+ b 2f; \`
		00db10	`+ .align 4; \`
		00db10	`+1: \`
		00db10	`+ cmplw cr6, r5, r11; \`
		00db10	`+ ble cr6, 2f; \`
		00db10	`+ addi r6, reg2, 16; \`
		00db10	`+ lvx v9, 0, r6; \`
		00db10	`+2: \`
		00db10	`+ vperm reg1, v9, reg1, reg3;`
		00db10	`+`
		00db10	`+/* TODO: change this to .machine power9 when minimum binutils`
		00db10	`+ is upgraded to 2.27. */`
		00db10	`+ .machine power7`
		00db10	`+EALIGN (strncmp, 4, 0)`
		00db10	`+ /* Check if size is 0. */`
		00db10	`+ cmpdi cr0, r5, 0`
		00db10	`+ beq cr0, L(ret0)`
		00db10	`+ li r0, 0`
		00db10	`+`
		00db10	`+ /* Check if [s1]+32 or [s2]+32 will cross a 4K page boundary using`
		00db10	`+ the code:`
		00db10	`+`
		00db10	`+ (((size_t) s1) % PAGE_SIZE > (PAGE_SIZE - ITER_SIZE))`
		00db10	`+`
		00db10	`+ with PAGE_SIZE being 4096 and ITER_SIZE begin 32. */`
		00db10	`+ rldicl r8, r3, 0, 52`
		00db10	`+ cmpldi cr7, r8, 4096-32`
		00db10	`+ bgt cr7, L(pagecross)`
		00db10	`+ rldicl r9, r4, 0, 52`
		00db10	`+ cmpldi cr7, r9, 4096-32`
		00db10	`+ bgt cr7, L(pagecross)`
		00db10	`+`
		00db10	`+ /* For short strings up to 32 bytes, load both s1 and s2 using`
		00db10	`+ unaligned dwords and compare. */`
		00db10	`+`
		00db10	`+ ld r7, 0(r3)`
		00db10	`+ ld r9, 0(r4)`
		00db10	`+ li r8, 0`
		00db10	`+ cmpb r8, r7, r8`
		00db10	`+ cmpb r6, r7, r9`
		00db10	`+ orc. r8, r8, r6`
		00db10	`+ bne cr0, L(different1)`
		00db10	`+`
		00db10	`+ /* If the strings compared are equal, but size is less or equal`
		00db10	`+ to 8, return 0. */`
		00db10	`+ cmpldi cr7, r5, 8`
		00db10	`+ li r9, 0`
		00db10	`+ ble cr7, L(ret1)`
		00db10	`+ addi r5, r5, -8`
		00db10	`+`
		00db10	`+ ld r7, 8(r3)`
		00db10	`+ ld r9, 8(r4)`
		00db10	`+ cmpb r8, r7, r8`
		00db10	`+ cmpb r6, r7, r9`
		00db10	`+ orc. r8, r8, r6`
		00db10	`+ bne cr0, L(different1)`
		00db10	`+ cmpldi cr7, r5, 8`
		00db10	`+ mr r9, r8`
		00db10	`+ ble cr7, L(ret1)`
		00db10	`+ /* Update pointers and size. */`
		00db10	`+ addi r5, r5, -8`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ ld r7, 0(r3)`
		00db10	`+ ld r9, 0(r4)`
		00db10	`+ li r8, 0`
		00db10	`+ cmpb r8, r7, r8`
		00db10	`+ cmpb r6, r7, r9`
		00db10	`+ orc. r8, r8, r6`
		00db10	`+ bne cr0, L(different1)`
		00db10	`+ cmpldi cr7, r5, 8`
		00db10	`+ li r9, 0`
		00db10	`+ ble cr7, L(ret1)`
		00db10	`+ addi r5, r5, -8`
		00db10	`+`
		00db10	`+ ld r7, 8(r3)`
		00db10	`+ ld r9, 8(r4)`
		00db10	`+ cmpb r8, r7, r8`
		00db10	`+ cmpb r6, r7, r9`
		00db10	`+ orc. r8, r8, r6`
		00db10	`+ bne cr0, L(different1)`
		00db10	`+ cmpldi cr7, r5, 8`
		00db10	`+ mr r9, r8`
		00db10	`+ ble cr7, L(ret1)`
		00db10	`+`
		00db10	`+ /* Update pointers and size. */`
		00db10	`+ addi r5, r5, -8`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+L(align):`
		00db10	`+ /* Now it has checked for first 32 bytes, align source1 to doubleword`
		00db10	`+ and adjust source2 address. */`
		00db10	`+ vspltisb v0, 0`
		00db10	`+ vspltisb v2, -1`
		00db10	`+ or r6, r4, r3`
		00db10	`+ andi. r6, r6, 0xF`
		00db10	`+ beq cr0, L(aligned)`
		00db10	`+ lvsr v6, 0, r4 /* Compute mask. */`
		00db10	`+ clrldi r6, r4, 60`
		00db10	`+ subfic r11, r6, 16`
		00db10	`+ andi. r6, r3, 0xF`
		00db10	`+ beq cr0, L(s1_align)`
		00db10	`+ /* Both s1 and s2 are unaligned. */`
		00db10	`+ GET16BYTES(v5, r4, v6)`
		00db10	`+ lvsr v10, 0, r3 /* Compute mask. */`
		00db10	`+ clrldi r6, r3, 60`
		00db10	`+ subfic r11, r6, 16`
		00db10	`+ GET16BYTES(v4, r3, v10)`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ beq cr6, L(match)`
		00db10	`+ b L(different)`
		00db10	`+`
		00db10	`+ /* Align s1 to qw and adjust s2 address. */`
		00db10	`+ .align 4`
		00db10	`+L(match):`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ subf r5, r11, r5`
		00db10	`+ add r3, r3, r11`
		00db10	`+ add r4, r4, r11`
		00db10	`+ andi. r11, r4, 0xF`
		00db10	`+ beq cr0, L(aligned)`
		00db10	`+ lvsr v6, 0, r4`
		00db10	`+ clrldi r6, r4, 60`
		00db10	`+ subfic r11, r6, 16`
		00db10	`+ /* There are 2 loops depending on the input alignment.`
		00db10	`+ Each loop gets 16 bytes from s1 and s2, checks for null`
		00db10	`+ and compares them. Loops until a mismatch or null occurs. */`
		00db10	`+L(s1_align):`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ GET16BYTES(v5, r4, v6)`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ GET16BYTES(v5, r4, v6)`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ GET16BYTES(v5, r4, v6)`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ GET16BYTES(v5, r4, v6)`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+ b L(s1_align)`
		00db10	`+ .align 4`
		00db10	`+L(aligned):`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ lvx v5, 0, r4`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ lvx v5, 0, r4`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ lvx v5, 0, r4`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+`
		00db10	`+ lvx v4, 0, r3`
		00db10	`+ lvx v5, 0, r4`
		00db10	`+ VCMPNEZB(v7, v5, v4)`
		00db10	`+ bne cr6, L(different)`
		00db10	`+ cmpldi cr7, r5, 16`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ addi r5, r5, -16`
		00db10	`+ addi r3, r3, 16`
		00db10	`+ addi r4, r4, 16`
		00db10	`+ b L(aligned)`
		00db10	`+ /* Calculate and return the difference. */`
		00db10	`+L(different):`
		00db10	`+ VCTZLSBB(r6, v7)`
		00db10	`+ cmplw cr7, r5, r6`
		00db10	`+ ble cr7, L(ret0)`
		00db10	`+ VEXTUBRX(r5, r6, v4)`
		00db10	`+ VEXTUBRX(r4, r6, v5)`
		00db10	`+ subf r3, r4, r5`
		00db10	`+ extsw r3, r3`
		00db10	`+ blr`
		00db10	`+`
		00db10	`+ .align 4`
		00db10	`+L(ret0):`
		00db10	`+ li r9, 0`
		00db10	`+L(ret1):`
		00db10	`+ mr r3, r9`
		00db10	`+ blr`
		00db10	`+`
		00db10	`+ /* The code now checks if r8 and r5 are different by issuing a`
		00db10	`+ cmpb and shifts the result based on its output:`
		00db10	`+`
		00db10	`+ leadzero = (__builtin_ffsl (z1) - 1);`
		00db10	`+ leadzero = leadzero > (n-1)8 ? (n-1)8 : leadzero;`
		00db10	`+ r1 = (r1 >> leadzero) & 0xFFUL;`
		00db10	`+ r2 = (r2 >> leadzero) & 0xFFUL;`
		00db10	`+ return r1 - r2; */`
		00db10	`+`
		00db10	`+ .align 4`
		00db10	`+L(different1):`
		00db10	`+ neg r11, r8`
		00db10	`+ sldi r5, r5, 3`
		00db10	`+ and r8, r11, r8`
		00db10	`+ addi r5, r5, -8`
		00db10	`+ cntlzd r8, r8`
		00db10	`+ subfic r8, r8, 63`
		00db10	`+ extsw r8, r8`
		00db10	`+ cmpld cr7, r8, r5`
		00db10	`+ ble cr7, L(different2)`
		00db10	`+ mr r8, r5`
		00db10	`+L(different2):`
		00db10	`+ extsw r8, r8`
		00db10	`+ srd r7, r7, r8`
		00db10	`+ srd r9, r9, r8`
		00db10	`+ rldicl r3, r7, 0, 56`
		00db10	`+ rldicl r9, r9, 0, 56`
		00db10	`+ subf r9, r9, 3`
		00db10	`+ extsw r9, r9`
		00db10	`+ mr r3, r9`
		00db10	`+ blr`
		00db10	`+`
		00db10	`+ /* If unaligned 16 bytes reads across a 4K page boundary, it uses`
		00db10	`+ a simple byte a byte comparison until the page alignment for s1`
		00db10	`+ is reached. */`
		00db10	`+ .align 4`
		00db10	`+L(pagecross):`
		00db10	`+ lbz r7, 0(r3)`
		00db10	`+ lbz r9, 0(r4)`
		00db10	`+ subfic r8, r8,4095`
		00db10	`+ cmplw cr7, r9, r7`
		00db10	`+ bne cr7, L(byte_ne_3)`
		00db10	`+ cmpdi cr7, r9, 0`
		00db10	`+ beq cr7, L(byte_ne_0)`
		00db10	`+ addi r5, r5, -1`
		00db10	`+ subf r7, r8, r5`
		00db10	`+ subf r9, r7, r5`
		00db10	`+ addi r9, r9, 1`
		00db10	`+ mtctr r9`
		00db10	`+ b L(pagecross_loop1)`
		00db10	`+`
		00db10	`+ .align 4`
		00db10	`+L(pagecross_loop0):`
		00db10	`+ beq cr7, L(ret0)`
		00db10	`+ lbz r9, 0(r3)`
		00db10	`+ lbz r8, 0(r4)`
		00db10	`+ addi r5, r5, -1`
		00db10	`+ cmplw cr7, r9, r8`
		00db10	`+ cmpdi cr5, r9, 0`
		00db10	`+ bne cr7, L(byte_ne_2)`
		00db10	`+ beq cr5, L(byte_ne_0)`
		00db10	`+L(pagecross_loop1):`
		00db10	`+ cmpdi cr7, r5, 0`
		00db10	`+ addi r3, r3, 1`
		00db10	`+ addi r4, r4, 1`
		00db10	`+ bdnz L(pagecross_loop0)`
		00db10	`+ cmpdi cr7, r7, 0`
		00db10	`+ li r9, 0`
		00db10	`+ bne+ cr7, L(align)`
		00db10	`+ b L(ret1)`
		00db10	`+`
		00db10	`+ .align 4`
		00db10	`+L(byte_ne_0):`
		00db10	`+ li r7, 0`
		00db10	`+L(byte_ne_1):`
		00db10	`+ subf r9, r9, r7`
		00db10	`+ extsw r9, r9`
		00db10	`+ b L(ret1)`
		00db10	`+`
		00db10	`+ .align 4`
		00db10	`+L(byte_ne_2):`
		00db10	`+ extsw r7, r9`
		00db10	`+ mr r9, r8`
		00db10	`+ b L(byte_ne_1)`
		00db10	`+L(byte_ne_3):`
		00db10	`+ extsw r7, r7`
		00db10	`+ b L(byte_ne_1)`
		00db10	`+END(strncmp)`
		00db10	`+libc_hidden_builtin_def(strncmp)`
		00db10	`+#else`
		00db10	`+#include <sysdeps/powerpc/powerpc64/power8/strncmp.S>`
		00db10	`+#endif`
		00db10	`--`
		00db10	`2.1.0`
		00db10

rpms / glibc

Source Code

Blame SOURCES/glibc-rh1385004-23.patch