[057/114] target/arm: Move sve zip high_ofs into simd_data

Message ID	20220527181907.189259-58-richard.henderson@linaro.org
State	Superseded
Headers	show Delivered-To: patch@linaro.org Received-SPF: pass (google.com: domain of qemu-devel-bounces+patch=linaro.org@nongnu.org designates 209.51.188.17 as permitted sender) client-ip=209.51.188.17; From: Richard Henderson <richard.henderson@linaro.org> To: qemu-devel@nongnu.org Cc: qemu-arm@nongnu.org Subject: [PATCH 057/114] target/arm: Move sve zip high_ofs into simd_data Date: Fri, 27 May 2022 11:18:10 -0700 Message-Id: <20220527181907.189259-58-richard.henderson@linaro.org> In-Reply-To: <20220527181907.189259-1-richard.henderson@linaro.org> References: <20220527181907.189259-1-richard.henderson@linaro.org> MIME-Version: 1.0 Content-Transfer-Encoding: 8bit Received-SPF: pass client-ip=2607:f8b0:4864:20::42c; envelope-from=richard.henderson@linaro.org; helo=mail-pf1-x42c.google.com X-Spam_score_int: -20 X-Spam_score: -2.1 X-Spam_bar: -- X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIM_SIGNED=0.1, DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1, RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001, SPF_PASS=-0.001, T_SCC_BODY_TEXT_LINE=-0.01 autolearn=ham autolearn_force=no X-Spam_action: no action Precedence: list Errors-To: qemu-devel-bounces+patch=linaro.org@nongnu.org Sender: "Qemu-devel" <qemu-devel-bounces+patch=linaro.org@nongnu.org>
Series	target/arm: Rewrite sve feature tests \| expand [000/114] target/arm: Rewrite sve feature tests [001/114] target/arm: Introduce TRANS, TRANS_FEAT [002/114] target/arm: Move null function and sve check into gen_gvec_ool_zz [003/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_zz [004/114] target/arm: Move null function and sve check into gen_gvec_ool_zzz [005/114] target/arm: Introduce gen_gvec_ool_arg_zzz [006/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_arg_zzz [007/114] target/arm: Use TRANS_FEAT for do_sve2_zzz_ool [008/114] target/arm: Move null function and sve check into gen_gvec_ool_zzzz [009/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_zzzz [010/114] target/arm: Introduce gen_gvec_ool_arg_zzzz [011/114] target/arm: Use TRANS_FEAT for do_sve2_zzzz_ool [012/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_arg_zzzz [013/114] target/arm: Rename do_zzxz_ool to gen_gvec_ool_arg_zzxz [014/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_arg_zzxz [015/114] target/arm: Use TRANS_FEAT for do_sve2_zzz_data [016/114] target/arm: Use TRANS_FEAT for do_sve2_zzzz_data [017/114] target/arm: Use TRANS_FEAT for do_sve2_zzw_data [018/114] target/arm: Use TRANS_FEAT for USDOT_zzzz [019/114] target/arm: Move null function and sve check into gen_gvec_ool_zzp [020/114] target/arm: Introduce gen_gvec_ool_arg_zpz [021/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_arg_zpz [022/114] target/arm: Use TRANS_FEAT for do_sve2_zpz_data [023/114] target/arm: Rename do_zpzi_ool to gen_gvec_ool_arg_zpzi [024/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_arg_zpzi [025/114] target/arm: Move null function and sve check into gen_gvec_ool_zzzp [026/114] target/arm: Introduce gen_gvec_ool_arg_zpzz [027/114] target/arm: Use TRANS_FEAT for gen_gvec_ool_arg_zpzz [028/114] target/arm: Use TRANS_FEAT for do_sve2_zpzz_ool [029/114] target/arm: Merge gen_gvec_fn_zz into do_mov_z [030/114] target/arm: Move null function and sve check into gen_gvec_fn_zzz [031/114] target/arm: Rename do_zzz_fn to gen_gvec_fn_arg_zzz [032/114] target/arm: More use of gen_gvec_fn_arg_zzz [033/114] target/arm: Use TRANS_FEAT for gen_gvec_fn_arg_zzz [034/114] target/arm: Use TRANS_FEAT for do_sve2_fn_zzz [035/114] target/arm: Use TRANS_FEAT for RAX1 [036/114] target/arm: Introduce gen_gvec_fn_arg_zzzz [037/114] target/arm: Use TRANS_FEAT for do_sve2_zzzz_fn [038/114] target/arm: Introduce gen_gvec_fn_zzi [039/114] target/arm: Use TRANS_FEAT for do_zz_dbm [040/114] target/arm: Hoist sve access check through do_sel_z [041/114] target/arm: Introduce gen_gvec_fn_arg_zzi [042/114] target/arm: Use TRANS_FEAT for do_sve2_fn2i [043/114] target/arm: Use TRANS_FEAT for do_vpz_ool [044/114] target/arm: Use TRANS_FEAT for do_shift_imm [045/114] target/arm: Introduce do_shift_zpzi [046/114] target/arm: Use TRANS_FEAT for do_shift_zpzi [047/114] target/arm: Use TRANS_FEAT for do_zpzzz_ool [048/114] target/arm: Move sve check into do_index [049/114] target/arm: Use TRANS_FEAT for do_index [050/114] target/arm: Use TRANS_FEAT for do_adr [051/114] target/arm: Use TRANS_FEAT for do_predset [052/114] target/arm: Use TRANS_FEAT for RDFFR, WRFFR [053/114] target/arm: Use TRANS_FEAT for do_pfirst_pnext [054/114] target/arm: Use TRANS_FEAT for do_EXT [055/114] target/arm: Use TRANS_FEAT for do_perm_pred3 [056/114] target/arm: Use TRANS_FEAT for do_perm_pred2 [057/114] target/arm: Move sve zip high_ofs into simd_data [058/114] target/arm: Use gen_gvec_ool_arg_zzz for do_zip, do_zip_q [059/114] target/arm: Use TRANS_FEAT for do_zip, do_zip_q [060/114] target/arm: Use TRANS_FEAT for do_clast_vector [061/114] target/arm: Use TRANS_FEAT for do_clast_fp [062/114] target/arm: Use TRANS_FEAT for do_clast_general [063/114] target/arm: Use TRANS_FEAT for do_last_fp [064/114] target/arm: Use TRANS_FEAT for do_last_general [065/114] target/arm: Use TRANS_FEAT for SPLICE [066/114] target/arm: Use TRANS_FEAT for do_ppzz_flags [067/114] target/arm: Use TRANS_FEAT for do_sve2_ppzz_flags [068/114] target/arm: Use TRANS_FEAT for do_ppzi_flags [069/114] target/arm: Use TRANS_FEAT for do_brk2, do_brk3 [070/114] target/arm: Use TRANS_FEAT for MUL_zzi [071/114] target/arm: Reject dup_i w/ shifted byte early [072/114] target/arm: Reject add/sub w/ shifted byte early [073/114] target/arm: Reject copy w/ shifted byte early [074/114] target/arm: Use TRANS_FEAT for ADD_zzi [075/114] target/arm: Use TRANS_FEAT for do_zzi_sat [076/114] target/arm: Use TRANS_FEAT for do_zzi_ool [077/114] target/arm: Introduce gen_gvec_{ptr,fpst}_zzzz [078/114] target/arm: Use TRANS_FEAT for FMMLA [079/114] target/arm: Move sve check into gen_gvec_fn_ppp [080/114] target/arm: Implement NOT (prediates) alias [081/114] target/arm: Use TRANS_FEAT for SEL_zpzz [082/114] target/arm: Use TRANS_FEAT for MOVPRFX [083/114] target/arm: Use TRANS_FEAT for FMLA [084/114] target/arm: Use TRANS_FEAT for BFMLA [085/114] target/arm: Rename do_zzz_fp to gen_gvec_ool_fpst_arg_zzz [086/114] target/arm: Use TRANS_FEAT for DO_FP3 [087/114] target/arm: Use TRANS_FEAT for FMUL_zzx [088/114] target/arm: Use TRANS_FEAT for FTMAD [089/114] target/arm: Move null function and sve check into do_reduce [090/114] target/arm: Use TRANS_FEAT for do_reduce [091/114] target/arm: Use TRANS_FEAT for FRECPE, FRSQRTE [092/114] target/arm: Expand frint_fns for MO_8 [093/114] target/arm: Rename do_zpz_ptr to gen_gvec_ool_fpst_arg_zpz [094/114] target/arm: Move null function and sve check into do_frint_mode [095/114] target/arm: Use TRANS_FEAT for do_frint_mode [096/114] target/arm: Use TRANS_FEAT for FLOGB [097/114] target/arm: Use TRANS_FEAT for do_ppz_fp [098/114] target/arm: Rename do_zpzz_ptr to gen_gvec_fpst_arg_zpzz [099/114] target/arm: Use TRANS_FEAT for gen_gvec_fpst_arg_zpzz [100/114] target/arm: Use TRANS_FEAT for FCADD [101/114] target/arm: Introduce gen_gvec_fpst_zzzzp [102/114] target/arm: Use TRANS_FEAT for gen_gvec_fpst_zzzzp [103/114] target/arm: Move null function and sve check into do_fp_imm [104/114] target/arm: Use TRANS_FEAT for DO_FP_IMM [105/114] target/arm: Use TRANS_FEAT for DO_FPCMP [106/114] target/arm: Remove assert in trans_FCMLA_zzxz [107/114] target/arm: Use TRANS_FEAT for FCMLA_zzxz [108/114] target/arm: Use TRANS_FEAT for do_narrow_extract [109/114] target/arm: Use TRANS_FEAT for do_shll_tb [110/114] target/arm: Use TRANS_FEAT for do_shr_narrow [111/114] target/arm: Use TRANS_FEAT for do_FMLAL_zzzw [112/114] target/arm: Use TRANS_FEAT for do_FMLAL_zzxw [113/114] target/arm: Add sve feature check for remaining trans_* functions [114/114] target/arm: Remove aa64_sve check from before disas_sve

Message ID

20220527181907.189259-58-richard.henderson@linaro.org

State

Superseded

Headers

Received-SPF: pass (google.com: domain of
 qemu-devel-bounces+patch=linaro.org@nongnu.org designates 209.51.188.17 as
 permitted sender) client-ip=209.51.188.17;
From: Richard Henderson <richard.henderson@linaro.org>
To: qemu-devel@nongnu.org
Cc: qemu-arm@nongnu.org
Subject: [PATCH 057/114] target/arm: Move sve zip high_ofs into simd_data
Date: Fri, 27 May 2022 11:18:10 -0700
Message-Id: <20220527181907.189259-58-richard.henderson@linaro.org>
In-Reply-To: <20220527181907.189259-1-richard.henderson@linaro.org>
References: <20220527181907.189259-1-richard.henderson@linaro.org>
MIME-Version: 1.0
Content-Transfer-Encoding: 8bit
Received-SPF: pass client-ip=2607:f8b0:4864:20::42c;
 envelope-from=richard.henderson@linaro.org; helo=mail-pf1-x42c.google.com
X-Spam_score_int: -20
X-Spam_score: -2.1
X-Spam_bar: --
X-Spam_report: (-2.1 / 5.0 requ) BAYES_00=-1.9, DKIM_SIGNED=0.1,
 DKIM_VALID=-0.1, DKIM_VALID_AU=-0.1, DKIM_VALID_EF=-0.1,
 RCVD_IN_DNSWL_NONE=-0.0001, SPF_HELO_NONE=0.001, SPF_PASS=-0.001,
 T_SCC_BODY_TEXT_LINE=-0.01 autolearn=ham autolearn_force=no
X-Spam_action: no action
X-BeenThere: qemu-devel@nongnu.org
X-Mailman-Version: 2.1.29
Precedence: list
List-Id: <qemu-devel.nongnu.org>
List-Unsubscribe: <https://lists.nongnu.org/mailman/options/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=unsubscribe>
List-Archive: <https://lists.nongnu.org/archive/html/qemu-devel>
List-Post: <mailto:qemu-devel@nongnu.org>
List-Help: <mailto:qemu-devel-request@nongnu.org?subject=help>
List-Subscribe: <https://lists.nongnu.org/mailman/listinfo/qemu-devel>,
 <mailto:qemu-devel-request@nongnu.org?subject=subscribe>
Errors-To: qemu-devel-bounces+patch=linaro.org@nongnu.org
Sender: "Qemu-devel" <qemu-devel-bounces+patch=linaro.org@nongnu.org>

Series

target/arm: Rewrite sve feature tests | expand

Commit Message

Richard Henderson May 27, 2022, 6:18 p.m. UTC

This is in line with how we treat uzp, and will
eliminate the special case code during translation.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/sve_helper.c    |  6 ++++--
 target/arm/translate-sve.c | 12 ++++++------
 2 files changed, 10 insertions(+), 8 deletions(-)

Comments

Idan Horowitz Oct. 27, 2022, 5:29 p.m. UTC | #1

On Fri, 27 May 2022 at 22:05, Richard Henderson
<richard.henderson@linaro.org> wrote:
>
> This is in line with how we treat uzp, and will
> eliminate the special case code during translation.
>
> Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
> ---

Sorry, a bit late, but I believe this change broke the implementation
of the ZIP2 SVE instructions:

>  target/arm/sve_helper.c    |  6 ++++--
>  target/arm/translate-sve.c | 12 ++++++------
>  2 files changed, 10 insertions(+), 8 deletions(-)
>
> diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
> index e0f9aa9983..3bdcd4ce9d 100644
> --- a/target/arm/sve_helper.c
> +++ b/target/arm/sve_helper.c
> @@ -3382,6 +3382,7 @@ void HELPER(sve_punpk_p)(void *vd, void *vn, uint32_t pred_desc)
>  void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)       \
>  {                                                                    \
>      intptr_t oprsz = simd_oprsz(desc);                               \
> +    intptr_t odd_ofs = simd_data(desc);                              \
>      intptr_t i, oprsz_2 = oprsz / 2;                                 \
>      ARMVectorReg tmp_n, tmp_m;                                       \
>      /* We produce output faster than we consume input.               \
> @@ -3393,8 +3394,9 @@ void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)       \
>          vm = memcpy(&tmp_m, vm, oprsz_2);                            \
>      }                                                                \

Unlike the for loop below, we are not taking the odd_ofs into account
in the 2 memcpys above. As an optimization these memcpys only copy
half of the vector, so when the instruction is using the same vector
register for 2 of the operands, and odd_ofs is not 0, we end up
reading the upper bytes of tmp_n/tmp_m, which are uninitialized
garbage. (Which is ironically a good thing in this case, since
non-deterministic incorrect behaviour was easier to find than
deterministic wrong results)

>      for (i = 0; i < oprsz_2; i += sizeof(TYPE)) {                    \
> -        *(TYPE *)(vd + H(2 * i + 0)) = *(TYPE *)(vn + H(i));         \
> -        *(TYPE *)(vd + H(2 * i + sizeof(TYPE))) = *(TYPE *)(vm + H(i)); \
> +        *(TYPE *)(vd + H(2 * i + 0)) = *(TYPE *)(vn + odd_ofs + H(i)); \
> +        *(TYPE *)(vd + H(2 * i + sizeof(TYPE))) =                    \
> +            *(TYPE *)(vm + odd_ofs + H(i));                          \
>      }                                                                \
>      if (sizeof(TYPE) == 16 && unlikely(oprsz & 16)) {                \
>          memset(vd + oprsz - 16, 0, 16);                              \
> diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
> index 1e6bcedb9d..c2ced3e2bb 100644
> --- a/target/arm/translate-sve.c
> +++ b/target/arm/translate-sve.c
> @@ -2298,9 +2298,9 @@ static bool do_zip(DisasContext *s, arg_rrr_esz *a, bool high)
>          unsigned vsz = vec_full_reg_size(s);
>          unsigned high_ofs = high ? vsz / 2 : 0;
>          tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
> -                           vec_full_reg_offset(s, a->rn) + high_ofs,
> -                           vec_full_reg_offset(s, a->rm) + high_ofs,
> -                           vsz, vsz, 0, fns[a->esz]);
> +                           vec_full_reg_offset(s, a->rn),
> +                           vec_full_reg_offset(s, a->rm),
> +                           vsz, vsz, high_ofs, fns[a->esz]);
>      }
>      return true;
>  }
> @@ -2324,9 +2324,9 @@ static bool do_zip_q(DisasContext *s, arg_rrr_esz *a, bool high)
>          unsigned vsz = vec_full_reg_size(s);
>          unsigned high_ofs = high ? QEMU_ALIGN_DOWN(vsz, 32) / 2 : 0;
>          tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
> -                           vec_full_reg_offset(s, a->rn) + high_ofs,
> -                           vec_full_reg_offset(s, a->rm) + high_ofs,
> -                           vsz, vsz, 0, gen_helper_sve2_zip_q);
> +                           vec_full_reg_offset(s, a->rn),
> +                           vec_full_reg_offset(s, a->rm),
> +                           vsz, vsz, high_ofs, gen_helper_sve2_zip_q);
>      }
>      return true;
>  }
> --
> 2.34.1
>
>

Best Regards, Idan Horowitz

diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
index e0f9aa9983..3bdcd4ce9d 100644
--- a/target/arm/sve_helper.c
+++ b/target/arm/sve_helper.c
@@ -3382,6 +3382,7 @@  void HELPER(sve_punpk_p)(void *vd, void *vn, uint32_t pred_desc)
 void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)       \
 {                                                                    \
     intptr_t oprsz = simd_oprsz(desc);                               \
+    intptr_t odd_ofs = simd_data(desc);                              \
     intptr_t i, oprsz_2 = oprsz / 2;                                 \
     ARMVectorReg tmp_n, tmp_m;                                       \
     /* We produce output faster than we consume input.               \
@@ -3393,8 +3394,9 @@  void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)       \
         vm = memcpy(&tmp_m, vm, oprsz_2);                            \
     }                                                                \
     for (i = 0; i < oprsz_2; i += sizeof(TYPE)) {                    \
-        *(TYPE *)(vd + H(2 * i + 0)) = *(TYPE *)(vn + H(i));         \
-        *(TYPE *)(vd + H(2 * i + sizeof(TYPE))) = *(TYPE *)(vm + H(i)); \
+        *(TYPE *)(vd + H(2 * i + 0)) = *(TYPE *)(vn + odd_ofs + H(i)); \
+        *(TYPE *)(vd + H(2 * i + sizeof(TYPE))) =                    \
+            *(TYPE *)(vm + odd_ofs + H(i));                          \
     }                                                                \
     if (sizeof(TYPE) == 16 && unlikely(oprsz & 16)) {                \
         memset(vd + oprsz - 16, 0, 16);                              \
diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
index 1e6bcedb9d..c2ced3e2bb 100644
--- a/target/arm/translate-sve.c
+++ b/target/arm/translate-sve.c
@@ -2298,9 +2298,9 @@  static bool do_zip(DisasContext *s, arg_rrr_esz *a, bool high)
         unsigned vsz = vec_full_reg_size(s);
         unsigned high_ofs = high ? vsz / 2 : 0;
         tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
-                           vec_full_reg_offset(s, a->rn) + high_ofs,
-                           vec_full_reg_offset(s, a->rm) + high_ofs,
-                           vsz, vsz, 0, fns[a->esz]);
+                           vec_full_reg_offset(s, a->rn),
+                           vec_full_reg_offset(s, a->rm),
+                           vsz, vsz, high_ofs, fns[a->esz]);
     }
     return true;
 }
@@ -2324,9 +2324,9 @@  static bool do_zip_q(DisasContext *s, arg_rrr_esz *a, bool high)
         unsigned vsz = vec_full_reg_size(s);
         unsigned high_ofs = high ? QEMU_ALIGN_DOWN(vsz, 32) / 2 : 0;
         tcg_gen_gvec_3_ool(vec_full_reg_offset(s, a->rd),
-                           vec_full_reg_offset(s, a->rn) + high_ofs,
-                           vec_full_reg_offset(s, a->rm) + high_ofs,
-                           vsz, vsz, 0, gen_helper_sve2_zip_q);
+                           vec_full_reg_offset(s, a->rn),
+                           vec_full_reg_offset(s, a->rm),
+                           vsz, vsz, high_ofs, gen_helper_sve2_zip_q);
     }
     return true;
 }

[057/114] target/arm: Move sve zip high_ofs into simd_data

Commit Message

Comments

Patch