Tree - rpms/atlas - CentOS Git server

rpms / atlas

Blame SOURCES/0005-Optimizations-for-IBM-z13.patch

Blob History Raw

		90d3fb	`From ad278554860b0da7d5848262a7bf35e058266cb1 Mon Sep 17 00:00:00 2001`
		90d3fb	`From: Andreas Arnez <arnez@linux.ibm.com>`
		90d3fb	`Date: Wed, 12 Dec 2018 20:06:27 +0100`
		90d3fb	`Subject: [PATCH 5/8] Optimizations for IBM z13`
		90d3fb
		90d3fb	`Perform some optimizations for IBM z13:`
		90d3fb	`- Compile with -O2 instead of -O.`
		90d3fb	`- Streamline vector loads/stores.`
		90d3fb	`- Define the vvrsum2 macro.`
		90d3fb
		90d3fb	`Also, use the compile option -march=z13 instead of -march=native.`
		90d3fb	`---`
		90d3fb	`CONFIG/src/atlcomp.txt \| 8 +++-----`
		90d3fb	`include/atlas_simd.h \| 11 +++++------`
		90d3fb	`2 files changed, 8 insertions(+), 11 deletions(-)`
		90d3fb
		90d3fb	`diff --git a/CONFIG/src/atlcomp.txt b/CONFIG/src/atlcomp.txt`
		90d3fb	`index aa31604..2ac71cf 100644`
		90d3fb	`--- a/CONFIG/src/atlcomp.txt`
		90d3fb	`+++ b/CONFIG/src/atlcomp.txt`
		90d3fb	`@@ -246,12 +246,10 @@ MACH=IBMz9,IBMz10,IBMz196 OS=ALL LVL=500 COMPS=f77`
		90d3fb	`'gfortran' '-O3 -funroll-loops'`
		90d3fb	`MACH=IBMz9,IBMz10,IBMz196,IBMz12 OS=ALL LVL=500 COMPS=smc,dmc,skc,dkc,icc,xcc,gcc`
		90d3fb	`'gcc' '-O3 -funroll-loops'`
		90d3fb	`-MACH=IBMz13 OS=ALL LVL=1000 COMPS=dmc,skc,dkc,icc,xcc,gcc`
		90d3fb	`- 'gcc' '-march=native -O -mvx -mzvector'`
		90d3fb	`-MACH=IBMz13 OS=ALL LVL=1000 COMPS=smc`
		90d3fb	`- 'gcc' '-march=native -O -mvx -mzvector -fno-peephole -fno-peephole2'`
		90d3fb	`+MACH=IBMz13 OS=ALL LVL=1000 COMPS=smc,dmc,skc,dkc,icc,xcc,gcc`
		90d3fb	`+ 'gcc' '-march=z13 -mtune=z13 -O2'`
		90d3fb	`MACH=IBMz13 OS=ALL LVL=1000 COMPS=f77`
		90d3fb	`- 'gfortran' '-march=native -O -mvx -mzvector'`
		90d3fb	`+ 'gfortran' '-march=z13 -mtune=z13 -O2'`
		90d3fb	`#`
		90d3fb	`# Windows defaults ; need to make SSE/SSE2 arch dep.`
		90d3fb	`#`
		90d3fb	`diff --git a/include/atlas_simd.h b/include/atlas_simd.h`
		90d3fb	`index 68daf79..f171933 100644`
		90d3fb	`--- a/include/atlas_simd.h`
		90d3fb	`+++ b/include/atlas_simd.h`
		90d3fb	`@@ -384,8 +384,8 @@`
		90d3fb	`#endif`
		90d3fb	`#define ATL_VTYPE vector double`
		90d3fb	`#if (defined(DREAL) \|\| defined(DCPLX))`
		90d3fb	`- #define ATL_vld(v_, p_) {v_[0] = *(p_); v_[1] = (p_)[1]; }`
		90d3fb	`- #define ATL_vst(p_, v_) {*(p_) = v_[0]; (p_)[1] = v_[1];}`
		90d3fb	`+ #define ATL_vld(v_, p_) v_ = (ATL_VTYPE )(p_)`
		90d3fb	`+ #define ATL_vst(p_, v_) (ATL_VTYPE )(p_) = v_`
		90d3fb	`#else`
		90d3fb	`#define ATL_vld(v_, p_) v_ = vec_ld2f(p_);`
		90d3fb	`#define ATL_vst(p_, v_) vec_st2f(v_, p_);`
		90d3fb	`@@ -400,10 +400,9 @@`
		90d3fb	`#define ATL_vmul(d_, s1_, s2_) d_ = s1_ * s2_`
		90d3fb	`#define ATL_vmac(d_, s1_, s2_) d_ = __builtin_s390_vec_madd(s1_, s2_, d_)`
		90d3fb	`#define ATL_vvrsum1(s0_) \`
		90d3fb	`- { ATL_VTYPE t_;\`
		90d3fb	`- t_ = vec_splat(s0_, 1); \`
		90d3fb	`- s0_ += t_; \`
		90d3fb	`- }`
		90d3fb	`+ { s0_ = vec_mergeh(s0_, s0_) + vec_mergel(s0_, s0_); }`
		90d3fb	`+ #define ATL_vvrsum2(s0_, s1_) \`
		90d3fb	`+ { s0_ = vec_mergeh(s0_, s1_) + vec_mergel(s0_, s1_); }`
		90d3fb	`#define ATL_vsplat0(d_, s_) d_ = vec_splat(s_, 0)`
		90d3fb	`#define ATL_vsplat1(d_, s_) d_ = vec_splat(s_, 1)`
		90d3fb	`#elif defined(ATL_NEON) && (defined(SREAL) \|\| defined(SCPLX))`
		90d3fb	`--`
		90d3fb	`2.23.0`
		90d3fb

rpms / atlas

Source Code

Blame SOURCES/0005-Optimizations-for-IBM-z13.patch