[v2,48/69] target/arm: Handle FPCR.AH in SVE FCMLA

Message ID	20250201164012.1660228-49-peter.maydell@linaro.org
State	New
Headers	show Delivered-To: patch@linaro.org Received-SPF: pass (google.com: domain of qemu-devel-bounces+patch=linaro.org@nongnu.org designates 209.51.188.17 as permitted sender) client-ip=209.51.188.17; From: Peter Maydell <peter.maydell@linaro.org> To: qemu-arm@nongnu.org, qemu-devel@nongnu.org Subject: [PATCH v2 48/69] target/arm: Handle FPCR.AH in SVE FCMLA Date: Sat, 1 Feb 2025 16:39:51 +0000 Message-Id: <20250201164012.1660228-49-peter.maydell@linaro.org> In-Reply-To: <20250201164012.1660228-1-peter.maydell@linaro.org> References: <20250201164012.1660228-1-peter.maydell@linaro.org> MIME-Version: 1.0 Content-Transfer-Encoding: 8bit Received-SPF: pass client-ip=2a00:1450:4864:20::32b; envelope-from=peter.maydell@linaro.org; helo=mail-wm1-x32b.google.com X-Spam_score_int: -20 X-Spam_score: -2.1 X-Spam_bar: -- X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1, RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001, SPF_PASS=-0.001 autolearn=unavailable autolearn_force=no X-Spam_action: no action Precedence: list Errors-To: qemu-devel-bounces+patch=linaro.org@nongnu.org Sender: qemu-devel-bounces+patch=linaro.org@nongnu.org
Series	target/arm: FEAT_AFP and FEAT_RPRES \| expand [v2,00/69] target/arm: FEAT_AFP and FEAT_RPRES [v2,01/69] target/i386: Do not raise Invalid for 0 * Inf + QNaN [v2,02/69] tests/tcg/x86_64/fma: Test some x86 fused-multiply-add cases [v2,03/69] fpu: Add float_class_denormal [v2,04/69] fpu: Implement float_flag_input_denormal_used [v2,05/69] fpu: allow flushing of output denormals to be after rounding [v2,06/69] target/arm: Define FPCR AH, FIZ, NEP bits [v2,07/69] target/arm: Implement FPCR.FIZ handling [v2,08/69] target/arm: Adjust FP behaviour for FPCR.AH = 1 [v2,09/69] target/arm: Adjust exception flag handling for AH = 1 [v2,10/69] target/arm: Add FPCR.AH to tbflags [v2,11/69] target/arm: Set up float_status to use for FPCR.AH=1 behaviour [v2,12/69] target/arm: Use FPST_FPCR_AH for FRECPE, FRECPS, FRECPX, FRSQRTE, FRSQRTS [v2,13/69] target/arm: Use FPST_FPCR_AH for BFCVT* insns [v2,14/69] target/arm: Use FPST_FPCR_AH for BFMLAL, BFMLSL insns [v2,15/69] target/arm: Add FPCR.NEP to TBFLAGS [v2,16/69] target/arm: Define and use new write_fp_reg_merging() functions [v2,17/69] target/arm: Handle FPCR.NEP for 3-input scalar operations [v2,18/69] target/arm: Handle FPCR.NEP for BFCVT scalar [v2,19/69] target/arm: Handle FPCR.NEP for 1-input scalar operations [v2,20/69] target/arm: Handle FPCR.NEP in do_cvtf_scalar() [v2,21/69] target/arm: Handle FPCR.NEP for scalar FABS and FNEG [v2,22/69] target/arm: Handle FPCR.NEP for FCVTXN (scalar) [v2,23/69] target/arm: Handle FPCR.NEP for NEP for FMUL, FMULX scalar by element [v2,24/69] target/arm: Implement FPCR.AH semantics for scalar FMIN/FMAX [v2,25/69] target/arm: Implement FPCR.AH semantics for vector FMIN/FMAX [v2,26/69] target/arm: Implement FPCR.AH semantics for FMAXV and FMINV [v2,27/69] target/arm: Implement FPCR.AH semantics for FMINP and FMAXP [v2,28/69] target/arm: Implement FPCR.AH semantics for SVE FMAXV and FMINV [v2,29/69] target/arm: Implement FPCR.AH semantics for SVE FMIN/FMAX immediate [v2,30/69] target/arm: Implement FPCR.AH semantics for SVE FMIN/FMAX vector [v2,31/69] target/arm: Implement FPCR.AH handling of negation of NaN [v2,32/69] target/arm: Implement FPCR.AH handling for scalar FABS and FABD [v2,33/69] target/arm: Handle FPCR.AH in vector FABD [v2,34/69] target/arm: Handle FPCR.AH in SVE FNEG [v2,35/69] target/arm: Handle FPCR.AH in SVE FABS [v2,36/69] target/arm: Handle FPCR.AH in SVE FABD [v2,37/69] target/arm: Handle FPCR.AH in negation steps in SVE FCADD [v2,38/69] target/arm: Handle FPCR.AH in negation steps in FCADD [v2,39/69] target/arm: Handle FPCR.AH in FRECPS and FRSQRTS scalar insns [v2,40/69] target/arm: Handle FPCR.AH in FRECPS and FRSQRTS vector insns [v2,41/69] target/arm: Handle FPCR.AH in negation step in FMLS (indexed) [v2,42/69] target/arm: Handle FPCR.AH in negation in FMLS (vector) [v2,43/69] target/arm: Handle FPCR.AH in negation step in SVE FMLS (vector) [v2,44/69] target/arm: Handle FPCR.AH in SVE FTSSEL [v2,45/69] target/arm: Handle FPCR.AH in SVE FTMAD [v2,46/69] target/arm: Handle FPCR.AH in vector FCMLA [v2,47/69] target/arm: Handle FPCR.AH in FCMLA by index [v2,48/69] target/arm: Handle FPCR.AH in SVE FCMLA [v2,49/69] target/arm: Handle FPCR.AH in FMLSL (by element and vector) [v2,50/69] target/arm: Handle FPCR.AH in SVE FMLSL (indexed) [v2,51/69] target/arm: Handle FPCR.AH in SVE FMLSLB, FMLSLT (vectors) [v2,52/69] target/arm: Enable FEAT_AFP for '-cpu max' [v2,53/69] target/arm: Plumb FEAT_RPRES frecpe and frsqrte through to new helper [v2,54/69] target/arm: Implement increased precision FRECPE [v2,55/69] target/arm: Implement increased precision FRSQRTE [v2,56/69] target/arm: Enable FEAT_RPRES for -cpu max [v2,57/69] target/arm: Introduce CPUARMState.vfp.fp_status[] [v2,58/69] target/arm: Remove standard_fp_status_f16 [v2,59/69] target/arm: Remove standard_fp_status [v2,60/69] target/arm: Remove ah_fp_status_f16 [v2,61/69] target/arm: Remove ah_fp_status [v2,62/69] target/arm: Remove fp_status_f16_a64 [v2,63/69] target/arm: Remove fp_status_f16_a32 [v2,64/69] target/arm: Remove fp_status_a64 [v2,65/69] target/arm: Remove fp_status_a32 [v2,66/69] target/arm: Simplify fp_status indexing in mve_helper.c [v2,67/69] target/arm: Simplify DO_VFP_cmp in vfp_helper.c [v2,68/69] target/arm: Read fz16 from env->vfp.fpcr [v2,69/69] target/arm: Sink fp_status and fpcr access into do_fmlal

Message ID

20250201164012.1660228-49-peter.maydell@linaro.org

State

New

Headers

Received-SPF: pass (google.com: domain of
 qemu-devel-bounces+patch=linaro.org@nongnu.org designates 209.51.188.17 as
 permitted sender) client-ip=209.51.188.17;
From: Peter Maydell <peter.maydell@linaro.org>
To: qemu-arm@nongnu.org,
	qemu-devel@nongnu.org
Subject: [PATCH v2 48/69] target/arm: Handle FPCR.AH in SVE FCMLA
Date: Sat,  1 Feb 2025 16:39:51 +0000
Message-Id: <20250201164012.1660228-49-peter.maydell@linaro.org>
In-Reply-To: <20250201164012.1660228-1-peter.maydell@linaro.org>
References: <20250201164012.1660228-1-peter.maydell@linaro.org>
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
Received-SPF: pass client-ip=2a00:1450:4864:20::32b;
 envelope-from=peter.maydell@linaro.org; helo=mail-wm1-x32b.google.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIM_SIGNED=0.1,
 DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001,
 SPF_PASS=-0.001 autolearn=unavailable autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+patch=linaro.org@nongnu.org
Sender: qemu-devel-bounces+patch=linaro.org@nongnu.org

Series

target/arm: FEAT_AFP and FEAT_RPRES | expand

Commit Message

Peter Maydell Feb. 1, 2025, 4:39 p.m. UTC

From: Richard Henderson <richard.henderson@linaro.org>

The negation step in SVE FCMLA mustn't negate a NaN when FPCR.AH is
set.  Use the same approach as we did for A64 FCMLA of passing in
FPCR.AH and using it to select whether to negate by XOR or by the
muladd negate_product flag.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20250129013857.135256-28-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/sve_helper.c    | 69 +++++++++++++++++++++-------------
 target/arm/tcg/translate-sve.c |  2 +-
 2 files changed, 43 insertions(+), 28 deletions(-)

diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
index c12b2600bd7..c206ca65ceb 100644
--- a/target/arm/tcg/sve_helper.c
+++ b/target/arm/tcg/sve_helper.c
@@ -5347,13 +5347,18 @@  void HELPER(sve_fcmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
                                void *vg, float_status *status, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
-    unsigned rot = simd_data(desc);
-    bool flip = rot & 1;
-    float16 neg_imag, neg_real;
+    bool flip = extract32(desc, SIMD_DATA_SHIFT, 1);
+    uint32_t fpcr_ah = extract32(desc, SIMD_DATA_SHIFT + 2, 1);
+    uint32_t negf_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
+    uint32_t negf_real = flip ^ negf_imag;
+    float16 negx_imag, negx_real;
     uint64_t *g = vg;
 
-    neg_imag = float16_set_sign(0, (rot & 2) != 0);
-    neg_real = float16_set_sign(0, rot == 1 || rot == 2);
+    /* With AH=0, use negx; with AH=1 use negf. */
+    negx_real = (negf_real & ~fpcr_ah) << 15;
+    negx_imag = (negf_imag & ~fpcr_ah) << 15;
+    negf_real = (negf_real & fpcr_ah ? float_muladd_negate_product : 0);
+    negf_imag = (negf_imag & fpcr_ah ? float_muladd_negate_product : 0);
 
     do {
         uint64_t pg = g[(i - 1) >> 6];
@@ -5370,18 +5375,18 @@  void HELPER(sve_fcmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
             mi = *(float16 *)(vm + H1_2(j));
 
             e2 = (flip ? ni : nr);
-            e1 = (flip ? mi : mr) ^ neg_real;
+            e1 = (flip ? mi : mr) ^ negx_real;
             e4 = e2;
-            e3 = (flip ? mr : mi) ^ neg_imag;
+            e3 = (flip ? mr : mi) ^ negx_imag;
 
             if (likely((pg >> (i & 63)) & 1)) {
                 d = *(float16 *)(va + H1_2(i));
-                d = float16_muladd(e2, e1, d, 0, status);
+                d = float16_muladd(e2, e1, d, negf_real, status);
                 *(float16 *)(vd + H1_2(i)) = d;
             }
             if (likely((pg >> (j & 63)) & 1)) {
                 d = *(float16 *)(va + H1_2(j));
-                d = float16_muladd(e4, e3, d, 0, status);
+                d = float16_muladd(e4, e3, d, negf_imag, status);
                 *(float16 *)(vd + H1_2(j)) = d;
             }
         } while (i & 63);
@@ -5392,13 +5397,18 @@  void HELPER(sve_fcmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
                                void *vg, float_status *status, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
-    unsigned rot = simd_data(desc);
-    bool flip = rot & 1;
-    float32 neg_imag, neg_real;
+    bool flip = extract32(desc, SIMD_DATA_SHIFT, 1);
+    uint32_t fpcr_ah = extract32(desc, SIMD_DATA_SHIFT + 2, 1);
+    uint32_t negf_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
+    uint32_t negf_real = flip ^ negf_imag;
+    float32 negx_imag, negx_real;
     uint64_t *g = vg;
 
-    neg_imag = float32_set_sign(0, (rot & 2) != 0);
-    neg_real = float32_set_sign(0, rot == 1 || rot == 2);
+    /* With AH=0, use negx; with AH=1 use negf. */
+    negx_real = (negf_real & ~fpcr_ah) << 31;
+    negx_imag = (negf_imag & ~fpcr_ah) << 31;
+    negf_real = (negf_real & fpcr_ah ? float_muladd_negate_product : 0);
+    negf_imag = (negf_imag & fpcr_ah ? float_muladd_negate_product : 0);
 
     do {
         uint64_t pg = g[(i - 1) >> 6];
@@ -5415,18 +5425,18 @@  void HELPER(sve_fcmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
             mi = *(float32 *)(vm + H1_2(j));
 
             e2 = (flip ? ni : nr);
-            e1 = (flip ? mi : mr) ^ neg_real;
+            e1 = (flip ? mi : mr) ^ negx_real;
             e4 = e2;
-            e3 = (flip ? mr : mi) ^ neg_imag;
+            e3 = (flip ? mr : mi) ^ negx_imag;
 
             if (likely((pg >> (i & 63)) & 1)) {
                 d = *(float32 *)(va + H1_2(i));
-                d = float32_muladd(e2, e1, d, 0, status);
+                d = float32_muladd(e2, e1, d, negf_real, status);
                 *(float32 *)(vd + H1_2(i)) = d;
             }
             if (likely((pg >> (j & 63)) & 1)) {
                 d = *(float32 *)(va + H1_2(j));
-                d = float32_muladd(e4, e3, d, 0, status);
+                d = float32_muladd(e4, e3, d, negf_imag, status);
                 *(float32 *)(vd + H1_2(j)) = d;
             }
         } while (i & 63);
@@ -5437,13 +5447,18 @@  void HELPER(sve_fcmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
                                void *vg, float_status *status, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
-    unsigned rot = simd_data(desc);
-    bool flip = rot & 1;
-    float64 neg_imag, neg_real;
+    bool flip = extract32(desc, SIMD_DATA_SHIFT, 1);
+    uint32_t fpcr_ah = extract32(desc, SIMD_DATA_SHIFT + 2, 1);
+    uint32_t negf_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
+    uint32_t negf_real = flip ^ negf_imag;
+    float64 negx_imag, negx_real;
     uint64_t *g = vg;
 
-    neg_imag = float64_set_sign(0, (rot & 2) != 0);
-    neg_real = float64_set_sign(0, rot == 1 || rot == 2);
+    /* With AH=0, use negx; with AH=1 use negf. */
+    negx_real = (uint64_t)(negf_real & ~fpcr_ah) << 63;
+    negx_imag = (uint64_t)(negf_imag & ~fpcr_ah) << 63;
+    negf_real = (negf_real & fpcr_ah ? float_muladd_negate_product : 0);
+    negf_imag = (negf_imag & fpcr_ah ? float_muladd_negate_product : 0);
 
     do {
         uint64_t pg = g[(i - 1) >> 6];
@@ -5460,18 +5475,18 @@  void HELPER(sve_fcmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
             mi = *(float64 *)(vm + H1_2(j));
 
             e2 = (flip ? ni : nr);
-            e1 = (flip ? mi : mr) ^ neg_real;
+            e1 = (flip ? mi : mr) ^ negx_real;
             e4 = e2;
-            e3 = (flip ? mr : mi) ^ neg_imag;
+            e3 = (flip ? mr : mi) ^ negx_imag;
 
             if (likely((pg >> (i & 63)) & 1)) {
                 d = *(float64 *)(va + H1_2(i));
-                d = float64_muladd(e2, e1, d, 0, status);
+                d = float64_muladd(e2, e1, d, negf_real, status);
                 *(float64 *)(vd + H1_2(i)) = d;
             }
             if (likely((pg >> (j & 63)) & 1)) {
                 d = *(float64 *)(va + H1_2(j));
-                d = float64_muladd(e4, e3, d, 0, status);
+                d = float64_muladd(e4, e3, d, negf_imag, status);
                 *(float64 *)(vd + H1_2(j)) = d;
             }
         } while (i & 63);
diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
index 410087c3fbd..6af94fedd0a 100644
--- a/target/arm/tcg/translate-sve.c
+++ b/target/arm/tcg/translate-sve.c
@@ -3955,7 +3955,7 @@  static gen_helper_gvec_5_ptr * const fcmla_fns[4] = {
     gen_helper_sve_fcmla_zpzzz_s, gen_helper_sve_fcmla_zpzzz_d,
 };
 TRANS_FEAT(FCMLA_zpzzz, aa64_sve, gen_gvec_fpst_zzzzp, fcmla_fns[a->esz],
-           a->rd, a->rn, a->rm, a->ra, a->pg, a->rot,
+           a->rd, a->rn, a->rm, a->ra, a->pg, a->rot | (s->fpcr_ah << 2),
            a->esz == MO_16 ? FPST_A64_F16 : FPST_A64)
 
 static gen_helper_gvec_4_ptr * const fcmla_idx_fns[4] = {

[v2,48/69] target/arm: Handle FPCR.AH in SVE FCMLA

Commit Message

Patch