08c3a6
commit 4ff6ae069b7caacd5f99088abd755717b994f660
08c3a6
Author: Noah Goldstein <goldstein.w.n@gmail.com>
08c3a6
Date:   Fri Mar 25 17:13:33 2022 -0500
08c3a6
08c3a6
    x86: Small improvements for wcslen
08c3a6
    
08c3a6
    Just a few QOL changes.
08c3a6
        1. Prefer `add` > `lea` as it has high execution units it can run
08c3a6
           on.
08c3a6
        2. Don't break macro-fusion between `test` and `jcc`
08c3a6
        3. Reduce code size by removing gratuitous padding bytes (-90
08c3a6
           bytes).
08c3a6
    
08c3a6
    geometric_mean(N=20) of all benchmarks New / Original: 0.959
08c3a6
    
08c3a6
    All string/memory tests pass.
08c3a6
    Reviewed-by: H.J. Lu <hjl.tools@gmail.com>
08c3a6
    
08c3a6
    (cherry picked from commit 244b415d386487521882debb845a040a4758cb18)
08c3a6
08c3a6
diff --git a/sysdeps/x86_64/wcslen.S b/sysdeps/x86_64/wcslen.S
08c3a6
index 61edea1d14d454c6..ad066863a44ea0a5 100644
08c3a6
--- a/sysdeps/x86_64/wcslen.S
08c3a6
+++ b/sysdeps/x86_64/wcslen.S
08c3a6
@@ -41,82 +41,82 @@ ENTRY (__wcslen)
08c3a6
 	pxor	%xmm0, %xmm0
08c3a6
 
08c3a6
 	lea	32(%rdi), %rax
08c3a6
-	lea	16(%rdi), %rcx
08c3a6
+	addq	$16, %rdi
08c3a6
 	and	$-16, %rax
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm0
08c3a6
 	pmovmskb %xmm0, %edx
08c3a6
 	pxor	%xmm1, %xmm1
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm1
08c3a6
 	pmovmskb %xmm1, %edx
08c3a6
 	pxor	%xmm2, %xmm2
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm2
08c3a6
 	pmovmskb %xmm2, %edx
08c3a6
 	pxor	%xmm3, %xmm3
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm0
08c3a6
 	pmovmskb %xmm0, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm1
08c3a6
 	pmovmskb %xmm1, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm2
08c3a6
 	pmovmskb %xmm2, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm0
08c3a6
 	pmovmskb %xmm0, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm1
08c3a6
 	pmovmskb %xmm1, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm2
08c3a6
 	pmovmskb %xmm2, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	(%rax), %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+	addq	$16, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	16(%rax), %rax
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	and	$-0x40, %rax
08c3a6
@@ -133,104 +133,100 @@ L(aligned_64_loop):
08c3a6
 	pminub	%xmm0, %xmm2
08c3a6
 	pcmpeqd	%xmm3, %xmm2
08c3a6
 	pmovmskb %xmm2, %edx
08c3a6
+	addq	$64, %rax
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	64(%rax), %rax
08c3a6
 	jz	L(aligned_64_loop)
08c3a6
 
08c3a6
 	pcmpeqd	-64(%rax), %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+    addq	$48, %rdi
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	48(%rcx), %rcx
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	%xmm1, %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+    addq	$-16, %rdi
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	-16(%rcx), %rcx
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	-32(%rax), %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+    addq	$-16, %rdi
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	-16(%rcx), %rcx
08c3a6
 	jnz	L(exit)
08c3a6
 
08c3a6
 	pcmpeqd	%xmm6, %xmm3
08c3a6
 	pmovmskb %xmm3, %edx
08c3a6
+    addq	$-16, %rdi
08c3a6
 	test	%edx, %edx
08c3a6
-	lea	-16(%rcx), %rcx
08c3a6
-	jnz	L(exit)
08c3a6
-
08c3a6
-	jmp	L(aligned_64_loop)
08c3a6
+	jz	L(aligned_64_loop)
08c3a6
 
08c3a6
 	.p2align 4
08c3a6
 L(exit):
08c3a6
-	sub	%rcx, %rax
08c3a6
+	sub	%rdi, %rax
08c3a6
 	shr	$2, %rax
08c3a6
 	test	%dl, %dl
08c3a6
 	jz	L(exit_high)
08c3a6
 
08c3a6
-	mov	%dl, %cl
08c3a6
-	and	$15, %cl
08c3a6
+	andl	$15, %edx
08c3a6
 	jz	L(exit_1)
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	/* No align here. Naturally aligned % 16 == 1.  */
08c3a6
 L(exit_high):
08c3a6
-	mov	%dh, %ch
08c3a6
-	and	$15, %ch
08c3a6
+	andl	$(15 << 8), %edx
08c3a6
 	jz	L(exit_3)
08c3a6
 	add	$2, %rax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_1):
08c3a6
 	add	$1, %rax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_3):
08c3a6
 	add	$3, %rax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail0):
08c3a6
-	xor	%rax, %rax
08c3a6
+	xorl	%eax, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail1):
08c3a6
-	mov	$1, %rax
08c3a6
+	movl	$1, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail2):
08c3a6
-	mov	$2, %rax
08c3a6
+	movl	$2, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail3):
08c3a6
-	mov	$3, %rax
08c3a6
+	movl	$3, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail4):
08c3a6
-	mov	$4, %rax
08c3a6
+	movl	$4, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail5):
08c3a6
-	mov	$5, %rax
08c3a6
+	movl	$5, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail6):
08c3a6
-	mov	$6, %rax
08c3a6
+	movl	$6, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
-	.p2align 4
08c3a6
+	.p2align 3
08c3a6
 L(exit_tail7):
08c3a6
-	mov	$7, %rax
08c3a6
+	movl	$7, %eax
08c3a6
 	ret
08c3a6
 
08c3a6
 END (__wcslen)